обнаружить, если PDF-файл сделан из изображений

Я пытаюсь предварительно обработать огромное количество файлов PDF, многие из них на самом деле не текстовые, а образы, чтобы переместить их в нужное место для обработки OCR.

Проблема в том, что я попытался определить, является ли PDF образ основанным на OCR, но пока не удалось добиться успеха. Использование « pdffonts filename » предполагает правильный подход, но изображения только в PDF-файлах также имеют шрифты!

2 Solutions collect form web for “обнаружить, если PDF-файл сделан из изображений”

 pdfimages -list filename.pdf 

Должен сделать трюк. Это дает вам список изображений, содержащихся в файле PDF.

Вы можете установить pdftotext и посмотреть, сгенерировано ли оно больше, чем нет:

 for file_name in *.pdf; do if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi done 

В Debian и производных эта утилита находится в пакете poppler-utils .

  • ls дает мне разные заказы сортировки во время работы cron
  • есть ли какая-либо команда типа «стена», которая выполняет «команду» во всех терминалах
  • Что делает «sudo chown -R hadoop: hadoop hadoop»?
  • Прочитайте два текстовых файла, объедините каждую строку
  • Организация одного сценария с помощью другого
  • bash эквивалент zsh $ @
  • Сохранение параметров `find` в переменной
  • сравнить файлы по строкам и создать новое одно bash-программирование
  • Как сделать любой файл и поместить содержимое в этот скрипт
  • Как перебрать нумерованные файлы, а также выходы?
  • Переход от строки к массиву «слов» в Bash
  • Linux и Unix - лучшая ОС в мире.