Есть ли какой-то PDF-файл для преобразования текста?

Мне нужны файлы PDF для текста, поэтому я могу выполнять поиск по ним из командной строки. Есть ли какой-нибудь конвертер для Ubuntu, OBSD или подобного дистрибутива?

Возможно, связанная почта, OCR с ubuntu здесь .

4 Solutions collect form web for “Есть ли какой-то PDF-файл для преобразования текста?”

У вас много вариантов!

pdftotext из poppler уже упоминался.

Существует программа Haskell под названием pdf2line которая работает хорошо.

Еще одна опция – программа командной строки калибра ebook-convert (или самого калибра); он может конвертировать PDF в обычный текст или другой формат ebook (RTF, ePub), по моему мнению, он генерирует лучшие результаты, чем pdftotext, хотя он значительно медленнее.

ebook-convert file.pdf file.txt

AbiWord может конвертировать между любыми форматами, которые он знает из командной строки, и, по крайней мере, имеет плагин импорта PDF:

abiword --to=txt file.pdf

Еще одним вариантом является podofotextextract из библиотеки PDF-файлов podofo. Я этого не делал.

Если вы объедините два инструмента Ghostscript, pdf2ps и ps2ascii , у вас есть еще один вариант.

На самом деле я могу придумать еще несколько методов, но сейчас я оставлю это. 😉

Вы можете конвертировать PDF-файлы в текст в командной строке с помощью pdftotext (Ubuntu: poppler-utils ; пакет OpenBSD: xpdf-utils ).

Вы можете использовать Recoll (Ubuntu: recoll ; OpenBSD: no port, но есть один для FreeBSD .) Для поиска внутри различных форматированных текстовых типов документов, включая PDF. Есть графический интерфейс, и он автоматически создает индекс под капотом. Он использует pdftotext для преобразования PDF в текст.

Acrobat Reader (по крайней мере, версия 9 под Linux) имеет ограниченную возможность поиска по нескольким файлам (вы можете искать во всех файлах в каталоге).

Вероятно, pdftotext – это то, что вы ищете: http://en.wikipedia.org/wiki/Pdftotext, если текст, который вы хотите извлечь, действительно находится под графической формой, что не так часто встречается с документами PDF.

gPDFText конвертирует PDF-документ в текст ASCII, переформатирован для длинной строки, он работает для меня и имеет графический интерфейс.

  • сохранить вывод скрипта python в текстовый файл
  • Как похоронить невидимую метку в строках текста?
  • Как создать текстовый файл (1 гигабайт), содержащий случайные символы с кодировкой символов UTF-8?
  • Добавить значение в поле для заданного условия в определенном столбце файла
  • добавить имя файла в текст в углу файла изображения
  • Как я могу превратить уродливый вывод в красивую и полезную информацию?
  • Сравните все текстовые файлы в каталоге и сортируйте по сходству
  • Должен ли я закончить мои текстовые / скриптовые файлы с помощью новой строки?
  • Как настроить 'at' и 'sendmail' для вывода почты с помощью Content-Type: text / html
  • Как удалить все вхождения списка слов из текстового файла?
  • Как выбрать, скопировать и вставить некоторые столбцы из разных файлов и создать из них один файл?
  • Interesting Posts

    Перенаправление Bash не работает для команды SQLite

    Как реализовать подстановку процесса (используя скрипт bash) в оболочке, которая не имеет этого?

    open () вернуть новый дескриптор файла posix

    Динамически переформатированные страницы пользователя при изменении размеров терминала

    Ctrl + Alt + F1 (F2, F3, F4 …) не работает после заполнения / запуска

    Madwimax: подключение к модему, но не интернет

    Как добавить папку к существующему пользователю

    Как напечатать дефисы, если переменная пуста?

    Как использовать нестандартную логин для входа в ssh login

    Как скопировать домашний каталог в домашний каталог?

    установка бита «x» (исполняемый) с использованием ACL

    Является ли 'grep -v -l' эквивалентным 'grep -L'?

    Каков правильный способ разблокировать корневую файловую систему, охватывающую два устройства LUKS, только однажды введя пароль, используя systemd?

    подстановка строки с помощью sed

    как предотвратить перезагрузку nfsmount?

    Linux и Unix - лучшая ОС в мире.