как OCR PDF-файл и получить текст, сохраненный в pdf?

во-первых, извинения, если это было задано раньше – я искал какое-то время через существующие сообщения, но не смог найти поддержку.

Меня интересует решение для Fedora OCR для многостраничного PDF без возможности поиска и превращение этого pdf в новый pdf-файл, содержащий текстовый слой поверх изображения. На Mac OSX или Windows мы могли использовать Adobe Acrobat, но в Linux, в частности, на Fedora?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/, похоже, описывает решение, но, к сожалению, я уже потерял при получении точного изображения.

  • Разделить PDF на цветные и черно-белые страницы
  • Как обрабатывать текст перед тем, как передать его в текст? (Или как мне печатать сообщения Mutt UTF8 в PDF?)
  • Создайте pdf-файл, из которого невозможно извлечь изображения
  • Поворот страниц в формате pdf: 90 градусов для четных страниц и -90 градусов для нечетных страниц
  • Unix способ извлечь векторное изображение и его график из файла PDF?
  • Javascript проблема Adobe Reader в некоторых дистрибутивах Linux
  • Как преобразовать этот файл chm в pdf?
  • Создание точных немасштабированных буклетов с pdfbook автоматически
  • One Solution collect form web for “как OCR PDF-файл и получить текст, сохраненный в pdf?”

    Узнав, что tesseract теперь может также создавать доступные для поиска pdf-файлы, я нашел сценарий сэндвич: http://www.tobias-elze.de/pdfsandwich/

    после установки зависимостей (это может быть не полный список)

    sudo dnf install svn ocaml unpaper tesseract 

    Я следовал руководству скрипта для компиляции из источника

    Компиляция из источников

    pdfsandwich – это программное обеспечение с открытым исходным кодом (лицензия: GPL). Вы можете загрузить источники либо в виде пакета .tz.bz2 из области загрузки на веб-сайте проекта, либо проверить их путем подрывной деятельности:

     svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich 

    Если OCaml установлен в вашей системе, вы можете скомпилировать и установить следующим образом:

     cd pdfsandwich ./configure make sudo make install 

    и теперь это позволяет мне запускать

     sandwich multipaged-non-searchable.pdf 

    в результате получается PDF с возможностью поиска.

    Interesting Posts

    В сценарии Bash как работает команда continue со встроенными циклами?

    Определите подкаталоги, которые не содержат определенную строку в определенном файле

    Что такое ifconfig упавший пакет RX?

    awk-скрипт для удаления блоков в json

    NetworkManager (апплет) – после щелчка по сети нет окна или ошибки

    Как проверить пассивный и активный FTP

    Запустите команду в интерактивной оболочке с помощью ssh после поиска .bashrc

    Убедитесь, что только root может редактировать скрипт перед его выполнением

    сбросить разрешения системного файла, владельцев и групп

    Имитировать chroot с unshare

    SSH-туннель через посреднический сервер – как подключиться в один шаг (используя пару ключей)?

    Могу ли я установить лимит ресурсов для текущего дерева процессов?

    Где я могу найти все методы, которые я могу вызвать для переменной Ansible

    Клавиши курсора не перескакивают через вкладки в Vim

    Ping и tcpdump одновременно

    Linux и Unix - лучшая ОС в мире.