как OCR PDF-файл и получить текст, сохраненный в pdf?

во-первых, извинения, если это было задано раньше – я искал какое-то время через существующие сообщения, но не смог найти поддержку.

Меня интересует решение для Fedora OCR для многостраничного PDF без возможности поиска и превращение этого pdf в новый pdf-файл, содержащий текстовый слой поверх изображения. На Mac OSX или Windows мы могли использовать Adobe Acrobat, но в Linux, в частности, на Fedora?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/, похоже, описывает решение, но, к сожалению, я уже потерял при получении точного изображения.

One Solution collect form web for “как OCR PDF-файл и получить текст, сохраненный в pdf?”

Узнав, что tesseract теперь может также создавать доступные для поиска pdf-файлы, я нашел сценарий сэндвич: http://www.tobias-elze.de/pdfsandwich/

после установки зависимостей (это может быть не полный список)

sudo dnf install svn ocaml unpaper tesseract 

Я следовал руководству скрипта для компиляции из источника

Компиляция из источников

pdfsandwich – это программное обеспечение с открытым исходным кодом (лицензия: GPL). Вы можете загрузить источники либо в виде пакета .tz.bz2 из области загрузки на веб-сайте проекта, либо проверить их путем подрывной деятельности:

 svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich 

Если OCaml установлен в вашей системе, вы можете скомпилировать и установить следующим образом:

 cd pdfsandwich ./configure make sudo make install 

и теперь это позволяет мне запускать

 sandwich multipaged-non-searchable.pdf 

в результате получается PDF с возможностью поиска.

  • Извлечь слова вместо букв из pdf-файлов?
  • Можно ли перенести текст OCRed из одного PDF в другой PDF-файл?
  • Извлечение координат совпадающего текста в PDF
  • Печать двух страниц на листе из командной строки
  • Как определить, является ли скрытый текстовый слой в файле PDF из OCR или нет?
  • Печать PDF с помощью CUPS
  • Каковы инструменты GNU / Linux для проверки документов PDF перед публикацией?
  • Как шифровать (защищать паролем) PDF без шифрования метаданных?
  • Почему JavaScript, встроенный в PDF, открыт с Firefox, не выполнен?
  • TROFF для преобразования pdf или docx?
  • Как объединить 2 файла PDF с порядком перемежения страниц?
  • Interesting Posts
    Linux и Unix - лучшая ОС в мире.