Intereting Posts
Двоичные клавиши ввода / dev / входного уровня Как разобрать строку в bash на переменные, используя вкладку в качестве разделителя и сохранить пробелы? Разделить имя файла и путь внутри опции -exec команды find команда sed для удаления переменной количества строк Как установить и настроить внешний ленточный накопитель HP LTO-5 на сервер RHEL Какую книгу этих двух я должен прочитать для изучения сетей для администратора Unix / Linux? iptraf показывает трафик на UDP / 443, почему? Настроить vsftpd разрешить доступ к установленному файлу ISO AWK Сравнить столбец 1 из двух файлов Распечатать столбец добавления к третьему на выходе LFS 7.5 – Ошибки компиляции Glibc-2.19 в разделе 6.9, являются ли они фатальными для моей сборки LFS? Получение текущего количества соединений TCP в системе Арифметические операции с expr и переменными Почему приложения Mac никогда не закрываются? псевдоним tcsh со сложными аргументами cmds, quotes и cmd Загрузочный загрузчик FreeBSD не загружается из правильного пула

Как найти все изображения, содержащие любой текст?

У меня много изображений, и мне нужно найти, какие из них содержат любой текст на английском языке (чтобы удалить их). Возможно ли это сделать автоматически?

Вы можете использовать движок OCR с открытым исходным кодом, например Tessaract , чтобы выяснить, есть ли текст на английском языке или нет.

У меня была та же проблема, поделившись моим решением:

find . -type f \( -name "*.jpg" -or -name "*.png" \) -exec sh -c 'for x; do printf "%s :" "$x"; tesseract $x temp; if (grep -f blacklist temp.txt) then rm $x; rm temp.txt; fi; done' _ {} + 

сканирует все подкаталоги и удаляет соответствующие образцы OCR в соответствии с файлом с именем «черный список». только проблема: если в файле есть пробел, он не анализирует его правильно и вместо этого пытается запустить первое слово файла.

edit: старайтесь не оставлять пустые строки в файле черного списка.