Intereting Posts
Как использовать sed и регулярные выражения, чтобы найти шаблон и удалить последние несколько символов? Как добавить строки файла в конец строк другого файла? Список SSSD разрешил пользователям Почему GnuPG 2 и gpg-connect-agent не работают с «ERR 67108983 No SmartCard daemon»? Каков более быстрый способ запуска любой графической программы с терминала как копировать и переименовывать файлы с помощью «:» и увеличивать число в имени файла Не удается установить Mint, не удалось создать диск Как интерпретировать «верхний» вывод busybox? Выходной текущий день с использованием cal Отличительное имя LDAP Как использовать отдельного пользователя с графическим интерфейсом на OpenBSD? что значит «fork ()» скопирует адресное пространство исходного процесса Параметр yum's –enablerepo разрешает только репо для текущей команды? найти файл и усечь его Проверьте последний использованный файл .sh.

как OCR PDF-файл и получить текст, сохраненный в pdf?

во-первых, извинения, если это было задано раньше – я искал какое-то время через существующие сообщения, но не смог найти поддержку.

Меня интересует решение для Fedora OCR для многостраничного PDF без возможности поиска и превращение этого pdf в новый pdf-файл, содержащий текстовый слой поверх изображения. На Mac OSX или Windows мы могли использовать Adobe Acrobat, но в Linux, в частности, на Fedora?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/, похоже, описывает решение, но, к сожалению, я уже потерял при получении точного изображения.

Узнав, что tesseract теперь может также создавать доступные для поиска pdf-файлы, я нашел сценарий сэндвич: http://www.tobias-elze.de/pdfsandwich/

после установки зависимостей (это может быть не полный список)

sudo dnf install svn ocaml unpaper tesseract 

Я следовал руководству скрипта для компиляции из источника

Компиляция из источников

pdfsandwich – это программное обеспечение с открытым исходным кодом (лицензия: GPL). Вы можете загрузить источники либо в виде пакета .tz.bz2 из области загрузки на веб-сайте проекта, либо проверить их путем подрывной деятельности:

 svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich 

Если OCaml установлен в вашей системе, вы можете скомпилировать и установить следующим образом:

 cd pdfsandwich ./configure make sudo make install 

и теперь это позволяет мне запускать

 sandwich multipaged-non-searchable.pdf 

в результате получается PDF с возможностью поиска.