обнаружить, если PDF-файл сделан из изображений

Я пытаюсь предварительно обработать огромное количество файлов PDF, многие из них на самом деле не текстовые, а образы, чтобы переместить их в нужное место для обработки OCR.

Проблема в том, что я попытался определить, является ли PDF образ основанным на OCR, но пока не удалось добиться успеха. Использование « pdffonts filename » предполагает правильный подход, но изображения только в PDF-файлах также имеют шрифты!

  • bash script autobeautifiying с использованием declare -f
  • Внутри скрипта bash, выполняющего ssh, автоматически добавьте хост только для определенных известных ключей RSA
  • Безопасный переход пароля root в сценарий оболочки
  • Назначение выбора текста переменной в сценарии bash
  • Распаковка файла с восклицательным знаком из командной строки в сценарии bash
  • Поиск писателя файла
  • Как пропустить первый аргумент в скрипте
  • Запуск сценария при сбоях фонового процесса
  • 2 Solutions collect form web for “обнаружить, если PDF-файл сделан из изображений”

     pdfimages -list filename.pdf 

    Должен сделать трюк. Это дает вам список изображений, содержащихся в файле PDF.

    Вы можете установить pdftotext и посмотреть, сгенерировано ли оно больше, чем нет:

     for file_name in *.pdf; do if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi done 

    В Debian и производных эта утилита находится в пакете poppler-utils .

    Interesting Posts

    Как восстановить мою службу systemd при обновлении ее зависимостей

    Несовершенство управления разделами в Linux

    Как восстановить сохраненные (сохраненные) электронные письма после повреждения конфигурации KMail?

    включение numa для Intel Core i7

    ed: установите первую строку в качестве текущей строки по умолчанию

    Может кто-нибудь объяснить мне, как это делает grep?

    Установите PIL / Pillow через pip в тестировании Debian (Jessie)

    Tomcat – Как работает setenv.sh?

    Текстовые манипуляции: извлеките все внутри скобок

    Как я могу сопоставить и заменить этот многострочный шаблон в сценарии bash?

    Не удается подключить устройство кэширования к резервному устройству

    Почему вызов системы waitpid может использоваться только с дочерними процессами?

    Как Linux знает местоположение файлов данных на диске

    открыть уже запущенный процесс

    btrfs RAID1 массив показывает как два диска

    Linux и Unix - лучшая ОС в мире.