обнаружить, если PDF-файл сделан из изображений

Я пытаюсь предварительно обработать огромное количество файлов PDF, многие из них на самом деле не текстовые, а образы, чтобы переместить их в нужное место для обработки OCR.

Проблема в том, что я попытался определить, является ли PDF образ основанным на OCR, но пока не удалось добиться успеха. Использование « pdffonts filename » предполагает правильный подход, но изображения только в PDF-файлах также имеют шрифты!

2 Solutions collect form web for “обнаружить, если PDF-файл сделан из изображений”

 pdfimages -list filename.pdf 

Должен сделать трюк. Это дает вам список изображений, содержащихся в файле PDF.

Вы можете установить pdftotext и посмотреть, сгенерировано ли оно больше, чем нет:

 for file_name in *.pdf; do if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi done 

В Debian и производных эта утилита находится в пакете poppler-utils .

  • Перемещение большого количества файлов и каталогов в другой каталог
  • как удалить 0 (ноль) со дня и месяца, но не с года (01/09/2012), используя в Linux (Redhat)
  • Вывод NamingVariable для нескольких файлов в сценарии Bash
  • Сценарий оболочки Loop, если входной файл имеет больше входных данных
  • Оценка переменной чтения в той же строке в сценарии bash
  • Создание списка файлов, удаление «дубликатов» с различным суффиксом
  • Использование SSH в сценарии bash для запуска команд на сервере с использованием переменных.
  • Измените файл SVG на основе информации в файле CSV
  • Как начать обработку файла, который еще не создан
  • Как фильтровать файлы с именем файла, а затем удалять файл OLDEST?
  • Сценарий оболочки не запускается при запуске
  • Сохранять структуру каталогов при перемещении файлов с помощью find
  • Interesting Posts

    Ошибка «Ошибка устройства или ресурса» при попытке записи звука с использованием iscord

    проблемы печати с принтером DDST (aka PCL6) RICOH Aficio SP C240DN

    Как предотвратить потерю данных (после установки)

    служба systemd-path не работает

    Является ли целью установить номер версии файла, используя chattr, подобный оптометрической блокировке в базе данных?

    Удалить весь аргумент в текущей командной строке bash

    Подключить принтер Windows к машине Linux через samba

    Крепление KDE CIFS. Может копировать файлы с помощью mc, но дельфин не будет

    Не удалось найти xcb при запуске приложений Qt

    Гора работает вручную, но не в fstab

    Запуск службы на HPUX при загрузке

    Как узнать, что посеял в Vuze, если он не указан нигде в приложении?

    Почему -F был удален из / sbin / shutdown?

    Форматированная SD-карта ext4 с правами rootfs.squashfs

    Использование учетной записи root для предоставления sudo priviledges для установки wordpress

    Linux и Unix - лучшая ОС в мире.