как OCR PDF-файл и получить текст, сохраненный в pdf?

во-первых, извинения, если это было задано раньше – я искал какое-то время через существующие сообщения, но не смог найти поддержку.

Меня интересует решение для Fedora OCR для многостраничного PDF без возможности поиска и превращение этого pdf в новый pdf-файл, содержащий текстовый слой поверх изображения. На Mac OSX или Windows мы могли использовать Adobe Acrobat, но в Linux, в частности, на Fedora?

https://snippets.webaware.com.au/howto/pdf-ocr-linux/, похоже, описывает решение, но, к сожалению, я уже потерял при получении точного изображения.

  • Как включить копирование в буфер с помощью zathura-pdf-poppler?
  • Почему эта команда gs не работает на --filename.pdf?
  • Как добавить ярлыки в PDF?
  • Как экспортировать визитные карточки на одну страницу?
  • Есть ли программа просмотра PDF, способная открывать несколько документов в одном окне?
  • Ярлык для выбранного текста Google
  • Обнаружение метаданных о PDF-файле
  • TexLive и RHEL 6 - могу ли я установить 2011 * дополнительно * к 2007 году?
  • One Solution collect form web for “как OCR PDF-файл и получить текст, сохраненный в pdf?”

    Узнав, что tesseract теперь может также создавать доступные для поиска pdf-файлы, я нашел сценарий сэндвич: http://www.tobias-elze.de/pdfsandwich/

    после установки зависимостей (это может быть не полный список)

    sudo dnf install svn ocaml unpaper tesseract 

    Я следовал руководству скрипта для компиляции из источника

    Компиляция из источников

    pdfsandwich – это программное обеспечение с открытым исходным кодом (лицензия: GPL). Вы можете загрузить источники либо в виде пакета .tz.bz2 из области загрузки на веб-сайте проекта, либо проверить их путем подрывной деятельности:

     svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich 

    Если OCaml установлен в вашей системе, вы можете скомпилировать и установить следующим образом:

     cd pdfsandwich ./configure make sudo make install 

    и теперь это позволяет мне запускать

     sandwich multipaged-non-searchable.pdf 

    в результате получается PDF с возможностью поиска.

    Interesting Posts

    Проблемы с перенаправлением вывода

    Имеет ли segfaults плохую память

    rsync с двоеточиями в именах файлов

    Тестирование QinHeng Electronics HL-340 USB-последовательный адаптер

    yum install всегда терпит неудачу с ошибкой в ​​CentOS 7

    Насколько надежны / переносимы Nix-встроенные / команды (echo, ps, sort, uniq) из Debian в другие дистрибутивы

    BTRFS: слишком много отсутствующих устройств, доступное для записи монтирование запрещено

    Как свести к минимуму объем работы Firefox?

    Cisco AnyConnect для Fedora

    Как показывать строки после каждого совпадения grep до другого конкретного совпадения?

    Изменение интерфейса мониторинга с помощью udev, особенно если установлен маршрут

    Локальная переменная как часть глобальной

    LinuxMint, неспособный установить разделы подкачки равным приоритетом

    Копирование файлов, содержащих определенную структуру сохранения текста

    Удалите пакеты из ненадежного источника и переустановите их

    Linux и Unix - лучшая ОС в мире.