tesseract: возможно ли изменить вывод шрифта в OCRed pdf?

Продолжайте следить за тем, как OCR файл PDF и получить текст, сохраненный в pdf? Я успешно создал OCRed pdf-страницы.

Однако в Evince буквы не показаны; под этим я подразумеваю, что я не могу видеть персонажей, но я могу их выбрать, скопировать и вставить в другое место. Это не похоже на ошибку Evince: https://bugzilla.redhat.com/show_bug.cgi?id=1364201

При инициировании OCR страницы pdf с pdfsandwich, tesseract создает страницу, которая

содержит шрифт, который не имеет каких-либо полезных глифов (они назвали его GlyphLessFont). Он имеет только .notdef и .null замены (квадраты). Evince использует глиф .notdef, если для символа нет символа. Причина, по которой Okular выделяет текст, заключается в том, что он делает это на изображении не как обычный текст, а evince.

pdftotext распознает символы.

Теперь возникает вопрос: может ли tesseract сказать использовать другой шрифт?

    Вы можете настроить эту часть исходного кода по своему вкусу и изменить шрифт здесь. Вам нужно будет восстановить tesseract из источника, как только вы внесете изменения.

    Tesseract Github Renderer.h