Стандартный рабочий процесс для оцифровки журналов или книг с использованием OCR при минимизации размера файла?

Для сканирования книг, содержащих только текст, черно-белые изображения и четкие границы, рабочий процесс, который я использовал:

  • оцифровать источник, используя камеру или только сканер
  • использовать scantailor
  • наконец, используйте djvubind для создания маленького (1-7 МБ) djvu-файла с фоном ocr

Это прекрасно работает. Однако, если у вас есть журналы или книги с большим количеством цветов в изображениях, структурные элементы, фоны или изображения, которые перекрывают края страницы, использование scantailor (в смешанном режиме) становится очень сложным, и вам нужно действовать вручную с помощью каждого отдельного стр.

Итак, что было бы хорошим рабочим процессом в Linux, чтобы оцифровать такие источники и получить небольшой файл djvu или pdf с фоном ocr?

Interesting Posts

Установка пакетов на нескольких компьютерах Centos

Можно ли использовать `type`, чтобы проверить, является ли произвольное имя допустимым именем команды?

Настройка Mod4 в awesome

Почему `ip addr` показывает inet 192.168.122.1/24?

Как я могу извлечь изображения из PDF-файла?

Могу ли я использовать переменные среды, если #including другой файл Xresources

debian: ненужные необходимые пакеты в среде chroot

Как узнать, почему ядро ​​Linux заморожено?

Android w / Glibc stack, как я могу настроить аудио w / nvlc? Возможно ли это с помощью ALSA (Debian)?

Могут ли какие-либо текстовые веб-браузеры поддерживать символы рисования в виде юникода?

Список только скрытых файлов (а не только файлов точек) с использованием псевдонима ls

Команда Bash, чтобы определить, какая строка в группе строк является префиксом другой строки

Пропустить stdin в качестве аргумента для скрипта bash

SSD дает ошибки загрузки DMA, в то время как smartctrl не показывает ошибок

изменить среду работающего процесса

Linux и Unix - лучшая ОС в мире.