Стандартный рабочий процесс для оцифровки журналов или книг с использованием OCR при минимизации размера файла?

Для сканирования книг, содержащих только текст, черно-белые изображения и четкие границы, рабочий процесс, который я использовал:

  • оцифровать источник, используя камеру или только сканер
  • использовать scantailor
  • наконец, используйте djvubind для создания маленького (1-7 МБ) djvu-файла с фоном ocr

Это прекрасно работает. Однако, если у вас есть журналы или книги с большим количеством цветов в изображениях, структурные элементы, фоны или изображения, которые перекрывают края страницы, использование scantailor (в смешанном режиме) становится очень сложным, и вам нужно действовать вручную с помощью каждого отдельного стр.

Итак, что было бы хорошим рабочим процессом в Linux, чтобы оцифровать такие источники и получить небольшой файл djvu или pdf с фоном ocr?

Linux и Unix - лучшая ОС в мире.