как OCR PDF-файл и получить текст, сохраненный в pdf?

во-первых, извинения, если это было задано раньше – я искал какое-то время через существующие сообщения, но не смог найти поддержку.

Меня интересует решение для Fedora OCR для многостраничного PDF без возможности поиска и превращение этого pdf в новый pdf-файл, содержащий текстовый слой поверх изображения. На Mac OSX или Windows мы могли использовать Adobe Acrobat, но в Linux, в частности, на Fedora?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/, похоже, описывает решение, но, к сожалению, я уже потерял при получении точного изображения.

One Solution collect form web for “как OCR PDF-файл и получить текст, сохраненный в pdf?”

Узнав, что tesseract теперь может также создавать доступные для поиска pdf-файлы, я нашел сценарий сэндвич: http://www.tobias-elze.de/pdfsandwich/

после установки зависимостей (это может быть не полный список)

sudo dnf install svn ocaml unpaper tesseract 

Я следовал руководству скрипта для компиляции из источника

Компиляция из источников

pdfsandwich – это программное обеспечение с открытым исходным кодом (лицензия: GPL). Вы можете загрузить источники либо в виде пакета .tz.bz2 из области загрузки на веб-сайте проекта, либо проверить их путем подрывной деятельности:

 svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich 

Если OCaml установлен в вашей системе, вы можете скомпилировать и установить следующим образом:

 cd pdfsandwich ./configure make sudo make install 

и теперь это позволяет мне запускать

 sandwich multipaged-non-searchable.pdf 

в результате получается PDF с возможностью поиска.

  • PDF-просмотрщик текстовых документов, сохраненных как изображения - плохой рендеринг
  • concat pdf страницы после pdfcrop
  • Объедините в PDF первую страницу нескольких файлов odt в алфавитном порядке
  • Imagemagick конвертирует неправильно размеры ландшафта pdfs
  • Преобразование PDF в PDF / A?
  • pdftoppm (v 3.0) очень медленно конвертирует миниатюру в более новую версию
  • Выход PDF с правильными пробелами в примерах кода
  • Как сохранить копию защищенной формы PDF в Evince?
  • Объединить PDF-файлы, но увеличить число PDF-страниц, чтобы быть равномерным количеством страниц
  • Конвертировать связанные html-файлы в файл PDF?
  • Создание PDF-раздаточных материалов с помощью ghostscript
  • Является ли использование epub2pdf потенциальной угрозой безопасности? Есть ли альтернатива?
  • Interesting Posts

    Как я могу проверить свой жесткий диск?

    Как я могу отображать команды ssh, выполненные с другого компьютера?

    обработка подстановки команд в рыбах против других оболочек (sh, bash, zsh)

    Скопируйте все файлы рекурсивно, не заменяя

    Сервер и клиент OpenVPN – больше не может подключиться к сети?

    Разделы NTFS с высокой нагрузкой ввода-вывода приводят к потреблению всего процессорного времени

    Создайте образ ISO-образа DVD из каталога

    Ping IP работает, nslookup терпит неудачу. Новое ядро

    Вы предпочитаете скрипты bash или псевдонимы для ярлыков?

    Как вы перенаправляете NAT-порт с помощью PF?

    Как работать с несколькими командами sed в aix?

    Найдите 50 лучших каталогов, содержащих большинство файлов / каталогов на первом уровне?

    установка файловой системы CIFS напрямую или через fstab

    tar + rsync + untar. Любое преимущество по скорости только за rsync?

    Сетевая карта Realtek RTL8723BE не работает с операционной системой Chromium

    Linux и Unix - лучшая ОС в мире.