обнаружить, если PDF-файл сделан из изображений

Я пытаюсь предварительно обработать огромное количество файлов PDF, многие из них на самом деле не текстовые, а образы, чтобы переместить их в нужное место для обработки OCR.

Проблема в том, что я попытался определить, является ли PDF образ основанным на OCR, но пока не удалось добиться успеха. Использование « pdffonts filename » предполагает правильный подход, но изображения только в PDF-файлах также имеют шрифты!

2 Solutions collect form web for “обнаружить, если PDF-файл сделан из изображений”

 pdfimages -list filename.pdf 

Должен сделать трюк. Это дает вам список изображений, содержащихся в файле PDF.

Вы можете установить pdftotext и посмотреть, сгенерировано ли оно больше, чем нет:

 for file_name in *.pdf; do if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi done 

В Debian и производных эта утилита находится в пакете poppler-utils .

  • Как избежать ряда подстановочных знаков в сценарии оболочки unix?
  • Создавать эскиз с видео в произвольный временной интервал
  • значение переменной оболочки для цикла, отличного от цикла
  • Как я могу безопасно создавать и получать доступ к временным файлам из сценариев оболочки?
  • Как использовать команду find для выполнения двух условий в Linux
  • solaris 10 + отображать 2 строки после матча grep?
  • Выход из бесконечного цикла перезагрузки при запуске (rc.local)
  • Сценарий оболочки для проверки наличия одного или нескольких файлов с определенным расширением?
  • Скрипт для отправки почты, если в журнале не было записи в течение определенного времени
  • запустить pm2 из удаленного сценария оболочки
  • Каков наилучший способ удаления файлов и папок в каталог, исключая содержимое одной папки?
  • Interesting Posts

    Что противоположно «grep»?

    iptables от хоста к гостю вмешивается в vm-vm-связь

    Не удается правильно использовать мышь при запуске vim в tmux

    Запуск AVD и VirtualBox одновременно

    Бесплатное распространение gnu / linux для веб-сервера

    переименовать несколько файлов с одной переменной

    Как создать однородные столбцы из текста, содержащего как вкладки, так и пробелы?

    Что такое rsh.rlogin и как удалить rsh.rlogin

    Терминальные escape-последовательности: почему терминалы не сообщают, какие функции они поддерживают, вместо того, чтобы полагаться на terminfo?

    Как запустить команду перед загрузкой с помощью apt-get?

    Как я могу заставить FreeBSD `patch` переносить нулевые байты?

    Можно ли переопределить тильду ('~', домашний каталог)?

    Является ли «управление терминалом» исключительно для пользовательского контроля?

    Задание аргумента команды `~ / bin / *` имена файлов из любого каталога в bash

    Полная дата файла (без утилит GNU)

    Linux и Unix - лучшая ОС в мире.