как OCR PDF-файл и получить текст, сохраненный в pdf?

во-первых, извинения, если это было задано раньше – я искал какое-то время через существующие сообщения, но не смог найти поддержку.

Меня интересует решение для Fedora OCR для многостраничного PDF без возможности поиска и превращение этого pdf в новый pdf-файл, содержащий текстовый слой поверх изображения. На Mac OSX или Windows мы могли использовать Adobe Acrobat, но в Linux, в частности, на Fedora?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/, похоже, описывает решение, но, к сожалению, я уже потерял при получении точного изображения.

One Solution collect form web for “как OCR PDF-файл и получить текст, сохраненный в pdf?”

Узнав, что tesseract теперь может также создавать доступные для поиска pdf-файлы, я нашел сценарий сэндвич: http://www.tobias-elze.de/pdfsandwich/

после установки зависимостей (это может быть не полный список)

sudo dnf install svn ocaml unpaper tesseract 

Я следовал руководству скрипта для компиляции из источника

Компиляция из источников

pdfsandwich – это программное обеспечение с открытым исходным кодом (лицензия: GPL). Вы можете загрузить источники либо в виде пакета .tz.bz2 из области загрузки на веб-сайте проекта, либо проверить их путем подрывной деятельности:

 svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich 

Если OCaml установлен в вашей системе, вы можете скомпилировать и установить следующим образом:

 cd pdfsandwich ./configure make sudo make install 

и теперь это позволяет мне запускать

 sandwich multipaged-non-searchable.pdf 

в результате получается PDF с возможностью поиска.

  • конвертировать CDA XML в PDF без * TeX?
  • Читатели PDF не основаны на poppler?
  • Открытие PDF-файлов в существующем окне
  • Отметить копию идентификатора в PDF-распечатке
  • Обнаружение метаданных о PDF-файле
  • Как распечатать PDF-документ с помощью mupdf?
  • Разделить страницы в pdf
  • Vi ключи в Xpdf?
  • Как изменить подстановки шрифтов в kpdf?
  • Как я «unbook» pdf
  • Сценарий оболочки для обнаружения PDF-файлов с содержимым, отличным от ASCII
  • Interesting Posts

    Изменение правил NAT iptables на лету

    Как отключить один клик, чтобы открыть Pantheon / Elementary?

    Поиск «отмены» файла с отверстиями (GNU)

    Стандартные переменные среды для путей, специфичных для распространения

    Выделите часть текста из `wget` и войдите в файл?

    Как вы используете команду coproc в Bash?

    Как проверить правильность установки FFTW?

    BIND-сервер не распознает мою зону должным образом

    QEMU не запускается при выполнении в фоновом режиме внутри сценария оболочки

    Дублирование экземпляров в меню Gnome

    скрипт bash для массового изменения размера с помощью Imagemagick

    Как сделать определенные сервисы зависимыми от определенных интерфейсов?

    Проблема с использованием команды grep с переменной env, содержащей специальные символы

    Можно ли использовать параллельный порт в качестве устройства ввода CUPS?

    OverlayFS – Как сделать изменения в верхней файловой системе постоянными без размонтирования?

    Linux и Unix - лучшая ОС в мире.