обнаружить, если PDF-файл сделан из изображений

Я пытаюсь предварительно обработать огромное количество файлов PDF, многие из них на самом деле не текстовые, а образы, чтобы переместить их в нужное место для обработки OCR.

Проблема в том, что я попытался определить, является ли PDF образ основанным на OCR, но пока не удалось добиться успеха. Использование « pdffonts filename » предполагает правильный подход, но изображения только в PDF-файлах также имеют шрифты!

  • Возвращаемое значение команд при использовании stdin?
  • Использовать сценарий ожидания из Vagrantfile для обеспечения - проблема с несуществующим файлом во время выполнения
  • Запустите сценарий оболочки и прочитайте вывод в переменной и запустите другой скрипт на основе вывода
  • SSH для сервера, а также команды выполнения и печати
  • Как обнаружить архитектуру chroot внутри chroot?
  • вращать элемент массива в сценарии оболочки
  • Изменить порядок событий в скрипте bash, который записывается в crontab
  • эхо-цветной текст, который динамически меняет цвета
  • 2 Solutions collect form web for “обнаружить, если PDF-файл сделан из изображений”

     pdfimages -list filename.pdf 

    Должен сделать трюк. Это дает вам список изображений, содержащихся в файле PDF.

    Вы можете установить pdftotext и посмотреть, сгенерировано ли оно больше, чем нет:

     for file_name in *.pdf; do if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi done 

    В Debian и производных эта утилита находится в пакете poppler-utils .

    Linux и Unix - лучшая ОС в мире.