Intereting Posts
Поиск процессов, которые являются процессорами Как оптимизировать скорость скрипта? SSH удаленное выполнение использования ресурсов программы? Должна ли служба отменить и прекратить неполную работу над SIGTERM? Заполнение массива с помощью комбинации sed / echo Pscp замораживается после подключения к серверу – при копировании файла из окон в linux через cmd apt-get upgrade не находит новейшие пакеты sudo pgrep -f соответствует произвольным строкам и возвращает увеличение pids Разрешить пользователю запускать команду с аргументами (которая содержит пробелы) Создание VLAN Список неиспользуемых модулей Что такое xdg-icon-ресурс, помимо перемещения значков в пункт назначения? Необходимо подключиться к порту через LAN через межсетевой экран IPTABLES на статическом IP-интерфейсе Файл в Ubuntu эквивалентен файлу / etc / inittab в RedHat Полноэкранный режим CentOS 7 не работает в VirtualBox

обнаружить, если PDF-файл сделан из изображений

Я пытаюсь предварительно обработать огромное количество файлов PDF, многие из них на самом деле не текстовые, а образы, чтобы переместить их в нужное место для обработки OCR.

Проблема в том, что я попытался определить, является ли PDF образ основанным на OCR, но пока не удалось добиться успеха. Использование « pdffonts filename » предполагает правильный подход, но изображения только в PDF-файлах также имеют шрифты!

 pdfimages -list filename.pdf 

Должен сделать трюк. Это дает вам список изображений, содержащихся в файле PDF.

Вы можете установить pdftotext и посмотреть, сгенерировано ли оно больше, чем нет:

 for file_name in *.pdf; do if [ $(pdftotext "$file_name")"x" == "x" ] ; then mv "$file_name" /to/ocr ; fi done 

В Debian и производных эта утилита находится в пакете poppler-utils .