обнаружить, если PDF-файл сделан из изображений

Я пытаюсь предварительно обработать огромное количество файлов PDF, многие из них на самом деле не текстовые, а образы, чтобы переместить их в нужное место для обработки OCR.

Проблема в том, что я попытался определить, является ли PDF образ основанным на OCR, но пока не удалось добиться успеха. Использование « pdffonts filename » предполагает правильный подход, но изображения только в PDF-файлах также имеют шрифты!

2 Solutions collect form web for “обнаружить, если PDF-файл сделан из изображений”

 pdfimages -list filename.pdf 

Должен сделать трюк. Это дает вам список изображений, содержащихся в файле PDF.

Вы можете установить pdftotext и посмотреть, сгенерировано ли оно больше, чем нет:

 for file_name in *.pdf; do if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi done 

В Debian и производных эта утилита находится в пакете poppler-utils .

  • Скрипт для организации рабочего стола в папки / каталоги с помощью расширения
  • Печатать массив по строкам в документе здесь
  • Какую команду idempotent можно использовать, чтобы символическая ссылка указывала на каталог?
  • имена, которые имеют наибольшее количество раз в наборе данных
  • Как сделать svn искать, если есть обновление раз в минуту, и если есть вызов какого-то скрипта?
  • Сценарий Bash не работает
  • Bash: исходные файлы без полного пути?
  • Нужно ли инкапсулировать переменные awk в кавычки для их дезинфекции?
  • bash aptitude установить список пакетов из командной строки
  • Использование памяти бесконечно циклического сценария оболочки
  • Как написать скрипт bash без использования sudo в нем?
  • Interesting Posts

    Что такое параметр конфигурации –enable-double-buffer xterm?

    Почему разные гиперпотоки имеют разную тактовую частоту?

    Если символическая ссылка на NFS указывает на локальный диск, будет ли потерян локальный диск?

    bash – ведение последних версий каталогов

    как реализовать logrotate в сценарии оболочки

    Как запросить определенный URI с завитком

    Маршрутизация мобильных соединений для нескольких восходящих линий

    ESC-q не работает в tmux с zsh

    Не удается запустить cryptsetup через SSH?

    configure не удалось из-за того, что для получения более подробной информации см. `config.log '

    fail2ban отлично работает при неудачных попытках SSH, но не работает при неудачных попытках Apache2

    Предотвращение блокировки доступа во время вращения внешнего жесткого диска?

    Использовать файлы из команды find в параллельных пакетах

    Не удается подключить сетевой диск.

    uXlib.h В каком пакете есть этот файл lib?

    Linux и Unix - лучшая ОС в мире.