Intereting Posts
Найдите «умеренно большой» делитель заданного числа? Каковы затраты на увеличение значения `/ proc / sys / fs / inotify / max_user_watches`? В чем же разница между трубами и потоками? Как grep строки, которые имеют определенное значение в определенном столбце? Полный доступ к файлам моей доли Samba Emacs на экране HiDPI отображает нечитаемые шрифты Arch Linux Почему OOM-Killer не может просто убить процесс, который требует слишком многого? Отправлять электронные сообщения за пределами сети, с сервера за маршрутизатором DNS и переадресацией портов Есть ли простой способ «перезапустить» панель tmux? Псевдоним команды для запуска в фоновом режиме apt-get сломался после попытки установить вино Невозможно создать фоновый процесс Случайное изменение разрешения каталога «/» на «chmod 660» Ограничить клиентов MPD Выполнение команд в процессе повышенного bash путем записи на стандартный ввод его родительского скриптового процесса

Как растеризовать весь текст в PDF?

Вы знаете, когда у вас есть pdf-документ, который является проверкой документа, и это действительно огромный файл, потому что он просто хранит изображение отсканированного документа?

И есть инструменты OCR, которые могут помочь вам сделать правильный документ, который просто хранит текст?

Ну, мне нужно обратное! Предположим, у меня есть идеальный pdf-документ, созданный с помощью pdflatex и мне нужно превратить его в такой «огромный» pdf-файл, который выглядит точно так же, когда печатается на бумаге (с определенным значением dpi), но это всего лишь изображение оригинала ,

Моя первоначальная идея состоит в том, чтобы превратить PDF в ряд JPG, а затем обратно в PDF, но, возможно, для этого есть канонический путь?


В случае, если вы задаетесь вопросом, почему я хотел бы сделать такую ​​вещь: я в настоящее время застрял с сетевым принтером, который не поддерживается мной и который случайным образом удаляет символы в печатных файлах! Поэтому, пока кто-то не выяснит, что там не так, я хочу, чтобы это было обходным путем.

Вы можете проверить, загрязнены ли на основе изображений файлы PDF. Сначала конвертируйте PDF в (многостраничный) TIFF, например с помощью ghostscript :

 gs -sDEVICE=tiffg4 -o sample.tif sample.pdf 

Затем преобразуйте TIFF в PDF, например:

 tiff2pdf -z -f -F -pA4 -o sample-img.pdf sample.tif 

Это результат в PDF-файле, где страницы представляют собой изображения вместо текста.

Кроме того, если ваша система поддерживает печать файлов TIFF, попробуйте распечатать ее напрямую.

Существует также вариант pdf2ps для преобразования PDF в PS, который, если работает, скорее всего, будет предпочтительнее.