Intereting Posts
Шрифты не отображаются – Debian 8 сценарий оболочки для проверки состояния переданной строки Установленный sqlite3 v3.8, но Mac-терминал по-прежнему запускает старую версию 3.6 по умолчанию Grub на дискете для восстановления загрузочной цепи CD Массив строки, расширенной до пути? Как мне постоянно синхронизировать системные часы с аппаратными часами? telnet: нажата клавиша Enter, в тексте было два возврата каретки Как команда netstat подходит для разных уровней модели TCP / IP на диаграмме производительности? Что случилось с книгами о программировании драйверов устройств Linux за последние восемь лет? Слишком много ключей добавляется в ssh-agent в CentOS6 – как я могу это остановить? Компьютерный терминал и виртуальная консоль написать pc uptime в файле при завершении работы FreeBSD – нет доступа к Интернету внутри тюрьмы Именование пакетов RPM Как сделать копию файла и поместить его в тот же каталог, который был скопирован?

Есть ли какой-то PDF-файл для преобразования текста?

Мне нужны файлы PDF для текста, поэтому я могу выполнять поиск по ним из командной строки. Есть ли какой-нибудь конвертер для Ubuntu, OBSD или подобного дистрибутива?

Возможно, связанная почта, OCR с ubuntu здесь .

У вас много вариантов!

pdftotext из poppler уже упоминался.

Существует программа Haskell под названием pdf2line которая работает хорошо.

Еще одна опция – программа командной строки калибра ebook-convert (или самого калибра); он может конвертировать PDF в обычный текст или другой формат ebook (RTF, ePub), по моему мнению, он генерирует лучшие результаты, чем pdftotext, хотя он значительно медленнее.

ebook-convert file.pdf file.txt

AbiWord может конвертировать между любыми форматами, которые он знает из командной строки, и, по крайней мере, имеет плагин импорта PDF:

abiword --to=txt file.pdf

Еще одним вариантом является podofotextextract из библиотеки PDF-файлов podofo. Я этого не делал.

Если вы объедините два инструмента Ghostscript, pdf2ps и ps2ascii , у вас есть еще один вариант.

На самом деле я могу придумать еще несколько методов, но сейчас я оставлю это. 😉

Вы можете конвертировать PDF-файлы в текст в командной строке с помощью pdftotext (Ubuntu: poppler-utils ; пакет OpenBSD: xpdf-utils ).

Вы можете использовать Recoll (Ubuntu: recoll ; OpenBSD: no port, но есть один для FreeBSD .) Для поиска внутри различных форматированных текстовых типов документов, включая PDF. Есть графический интерфейс, и он автоматически создает индекс под капотом. Он использует pdftotext для преобразования PDF в текст.

Acrobat Reader (по крайней мере, версия 9 под Linux) имеет ограниченную возможность поиска по нескольким файлам (вы можете искать во всех файлах в каталоге).

Вероятно, pdftotext – это то, что вы ищете: http://en.wikipedia.org/wiki/Pdftotext, если текст, который вы хотите извлечь, действительно находится под графической формой, что не так часто встречается с документами PDF.

gPDFText конвертирует PDF-документ в текст ASCII, переформатирован для длинной строки, он работает для меня и имеет графический интерфейс.