Извлечь жестко запрограммированные субтитры

Я хотел знать, есть ли способ извлечь жестко запрограммированные субтитры с помощью OCR. Должен ли я выполнить некоторую обработку изображения после извлечения кадров, чтобы впоследствии использовать tesseract ?

Я пытался извлечь кадры из видео и удалить все, что не соответствует цвету субтитров, но впоследствии я получил ужасные результаты при использовании tesseract .

Можно ли получить достойные результаты, используя только такой обходной путь, или мне лучше тренировать tesseract ? Легко генерировать тренировочные данные из случайных цитат, добавленных на случайных картинках фильма со случайными шрифтами, но для их обучения потребуется много времени.