Articles of ocr

Извлечь жестко запрограммированные субтитры

Я хотел знать, есть ли способ извлечь жестко запрограммированные субтитры с помощью OCR. Должен ли я выполнить некоторую обработку изображения после извлечения кадров, чтобы впоследствии использовать tesseract ? Я пытался извлечь кадры из видео и удалить все, что не соответствует цвету субтитров, но впоследствии я получил ужасные результаты при использовании tesseract . Можно ли получить […]

Программное обеспечение OCR для уравнений для получения файла LaTeX

Прежде всего, я прошу прощения, если это не подходящее место, чтобы спросить об этом, но я не мог придумать нигде (возможно, переполнение стека?). Во всяком случае, я ищу программное обеспечение оптического распознавания символов (OCR) для обработки моих заметок. Дело в том, что иногда в середине есть уравнение, поэтому я искал программное обеспечение, которое может обрабатывать […]

OCR для получения текста с изображения. Управление ошибками

Я хочу использовать программу OCR для получения некоторого текста в изображении. Текст не черный на белом, поэтому я не знаю, будет ли это возможно. wget -q -O image http://4.bp.blogspot.com/-mIE4JlppKMU/T9_mxKR__wI/AAAAAAAAASs/deHLBL21ZbE/s640/Temple%20Garden.png convert image -crop 90%x12% +repage name tesseract name-0 stdout rm name-* image wget -q -O image http://4.bp.blogspot.com/-roqIxFx13vQ/T981I3wqwOI/AAAAAAAAAQ0/cJk5AWocPO0/s1600/Tundra.png convert image -crop 90%x12% +repage name tesseract name-0 stdout […]

Где я могу получить двоичные файлы Tesseract для Debian 6 64bit?

Я использовал apt-get для установки Tesseract, но он не работает. Может быть, я мог бы просто скачать двоичные файлы где-нибудь, поставить в каталог и использовать этот способ? Что случилось с моим Tesseract сейчас: tesseract –help tesseract:Error:Usage:tesseract imagename outputbase [-l lang] [configfile [[+|-]varfile]…] а также tesseract test.tif out2.txt -l pol Unable to load unicharset file /usr/share/tesseract-ocr/tessdata/pol.unicharset […]

OCR, который выводит данные вероятности

Я хотел бы преобразовать печатные книги, которыми владею в аудио, сканируя их с помощью OCR, а затем запускаю текст через движок TTS. Эти заголовки недоступны в виде электронных книг. Поскольку OCR может совершать небольшие ошибки, особенно при преобразовании изображений, содержащих старые шрифты, я хотел бы найти механизм OCR, который может помечать каждую область текста метаданными, […]

Как растеризовать весь текст в PDF?

Вы знаете, когда у вас есть pdf-документ, который является проверкой документа, и это действительно огромный файл, потому что он просто хранит изображение отсканированного документа? И есть инструменты OCR, которые могут помочь вам сделать правильный документ, который просто хранит текст? Ну, мне нужно обратное! Предположим, у меня есть идеальный pdf-документ, созданный с помощью pdflatex и мне […]

Создать собственный список слов

Я хочу создать пользовательский список (научных) слов для таких целей, как проверка орфографии и OCR, основанная на моей коллекции научных статей в формате pdf. Используя pdftotext я могу легко создать текстовый файл, содержащий нужные слова для моего научного поля. Однако файл будет загрязнен слова, которые не являются специфическими для науки (и которые также содержатся в […]

Как найти все изображения, содержащие любой текст?

У меня много изображений, и мне нужно найти, какие из них содержат любой текст на английском языке (чтобы удалить их). Возможно ли это сделать автоматически?

Де-обфускация изображения со статистической информацией?

Мне нужно получить такую ​​информацию в цифрах, как? Возможно, связанный https://dsp.stackexchange.com/questions/1054/how-do-i-recover-the-signal-from-an-ecg-image https://dsp.stackexchange.com/questions/1080/find-a-specific-line-in-a-picture R biOps здесь как общий инструмент. R PET имеет преобразование Hough здесь (но может не работать в этой области, но HT не кажется слишком сложным здесь )

tesseract: возможно ли изменить вывод шрифта в OCRed pdf?

Продолжайте следить за тем, как OCR файл PDF и получить текст, сохраненный в pdf? Я успешно создал OCRed pdf-страницы. Однако в Evince буквы не показаны; под этим я подразумеваю, что я не могу видеть персонажей, но я могу их выбрать, скопировать и вставить в другое место. Это не похоже на ошибку Evince: https://bugzilla.redhat.com/show_bug.cgi?id=1364201 При инициировании […]

Intereting Posts
PAM против LDAP против SSSD против Kerberos Доступ к системе после отказа GNOME Каков наилучший способ передать вывод команды через пейджер, если (и только если) он слишком длинный? Настройка глобальных разрешений для просмотра для подкаталогов (rx), но делает файлы недоступными для всех, кроме владельцев и членов группы Разделить tmux окна с теми же ключами, что и в Emacs? виртуальный стереоскопический вывод linux для VR Конфигурация iptables ssh через VPN Как Ubuntu основан на Debian? Как создать LiveDVD из установленного CentOS? Символы к каталогам, которые не отображаются должным образом через Samba скрипт, чтобы проверить, действительно ли сертификат SSL Передача опции «–float» для клиента OpenVPN из NetworkManager Telegram-рабочий стол через x2go не запустится «который» сообщает одно, фактическая команда – это другой проверка данных в столбцах, когда данные или некоторые могут отсутствовать или присутствовать?