как OCR PDF-файл и получить текст, сохраненный в pdf?

во-первых, извинения, если это было задано раньше – я искал какое-то время через существующие сообщения, но не смог найти поддержку.

Меня интересует решение для Fedora OCR для многостраничного PDF без возможности поиска и превращение этого pdf в новый pdf-файл, содержащий текстовый слой поверх изображения. На Mac OSX или Windows мы могли использовать Adobe Acrobat, но в Linux, в частности, на Fedora?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/, похоже, описывает решение, но, к сожалению, я уже потерял при получении точного изображения.

  • Добавление и редактирование закладок в pdf
  • Как я могу обойти или исправить смещение принтера x0y?
  • Распечатайте n строк до и m строк после совпадения с pdfgrep
  • Как вы можете вставлять рисунки с разным размером?
  • Извлечь слова вместо букв из pdf-файлов?
  • Поиск хорошего интерактивного просмотра PDF-файлов
  • Как вставить пустую страницу в PDF с помощью ghostscript или pdftk?
  • Способы конвертировать и комбинировать файлы изображений в файл PDF?
  • One Solution collect form web for “как OCR PDF-файл и получить текст, сохраненный в pdf?”

    Узнав, что tesseract теперь может также создавать доступные для поиска pdf-файлы, я нашел сценарий сэндвич: http://www.tobias-elze.de/pdfsandwich/

    после установки зависимостей (это может быть не полный список)

    sudo dnf install svn ocaml unpaper tesseract 

    Я следовал руководству скрипта для компиляции из источника

    Компиляция из источников

    pdfsandwich – это программное обеспечение с открытым исходным кодом (лицензия: GPL). Вы можете загрузить источники либо в виде пакета .tz.bz2 из области загрузки на веб-сайте проекта, либо проверить их путем подрывной деятельности:

     svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich 

    Если OCaml установлен в вашей системе, вы можете скомпилировать и установить следующим образом:

     cd pdfsandwich ./configure make sudo make install 

    и теперь это позволяет мне запускать

     sandwich multipaged-non-searchable.pdf 

    в результате получается PDF с возможностью поиска.

    Linux и Unix - лучшая ОС в мире.