Избегайте раздувания размера файла при удалении OCRed текста из файла pdf?

Я использую pdfimages и convert рекомендованный Anthon для удаления OCRed текста pdf-файла , а размер файла PDF изменяется с 29MB до 373MB.

Мой первый шаг – разбить файл pdf на файл pbm на страницу pdf:

 mkdir tmp1 pdfimages ull.pdf tmp1/ull 

Общий размер сгенерированных файлов pbm составляет 788M.

На следующем шаге я конвертирую и объединяю сгенерированные файлы pbm в файл pdf

 cd tmp1 convert ull*.pbm all.pdf 

Это идет не так, потому что для него требуется более 1 ГБ места /tmp , а у моего /tmp нет такого свободного места. Итак, мой второй шаг на самом деле:

 mkdir tmp2 for i in ull-*.pbm; do convert $i tmp2/$i.pdf ; done cd tmp2 pdftk ull-???.pbm.pdf ull-????.pbm.pdf cat output ../../all.pdf 

Сгенерированный PDF-файл all.pdf имеет 373 МБ, намного больше, чем исходный размер 29 МБ. Я запускаю pdftk all.pdf output new.pdf compress , но он не уменьшает размер файла.

Поскольку все, что я хочу, это удалить OCRed текст из файла pdf, как я могу избежать раздувания размера файла?

  • Манипулирование изображением pdf
  • Как сделать PDF-портфолио из объединенных файлов
  • Как добавить файл PDF в другой файл PDF после указанной страницы?
  • Какова максимальная версия формата PDF, которую может производить бесплатное программное обеспечение?
  • конвертировать одностраничный пейзаж pdf в масштабируемый двухстраничный портрет pdf
  • Xpdf подходит для ширины страницы в полноэкранном режиме
  • Как изменить размер содержимого PDF без изменения размера страницы?
  • Каков программный пакет для создания PDF-документов на ОС Debian и OpenBSD?
  • One Solution collect form web for “Избегайте раздувания размера файла при удалении OCRed текста из файла pdf?”

    Если исходное изображение является файлами JPEG, вы можете использовать параметр pdfimages -j . От man pdfimages :

     -j Normally, all images are written as PBM (for monochrome images) or PPM (for non-monochrome images) files. With this option, images in DCT format are saved as JPEG files. All non-DCT images are saved in PBM/PPM format as usual. 

    Я не уверен, как управлять способом преобразования изображений в файл PDF, но вы можете использовать -resize и -resize для изменения качества сжатия.

    Вызвав convert одним из следующих способов

     TMPDIR=/home/tim/tmp convert ... MAGICK_TMPDIR=/home/tim/tmp convert ... 

    вы можете преобразовать use /home/tim/tmp в качестве временного каталога и обойти проблемы с пространством. (Что, вероятно, не влияет на результирующий размер файла).

    Interesting Posts

    echo показывает 1 4 5 6 … почему?

    Как KVM устанавливает свои собственные правила netfilter?

    Пользовательская продолжительность кэша для определенных ключей?

    Как я могу использовать установленный раздел / диск Arch как физический диск VMWare на виртуальной машине?

    возможно ли раскрасить подсказку для контекстного меню (обратного-и-поиска)?

    Каковы достоинства многозадачности с традиционным управлением заданиями и Tmux / Screen?

    Определите, какой процесс занимает большую часть полосы пропускания диска?

    Восстановление файлов с помощью testdisk перестает показывать рост данных и теперь просто отображает количество неудачных попыток ввода

    Отказ в доступе к PAM запрещен

    выполнение сценария оболочки из запуска, медленное завершение / завершение сценария

    Ошибка ZFS (при Linux) при выключении

    `find` return value: неправильная ли страница поиска?

    Сценарий Bash с несколькими строками и Grep

    Как сравнить два файла и создать другой файл, который не находится в первом файле?

    OpenBSD relayd SSL обратный прокси для 3 веб-серверов

    Linux и Unix - лучшая ОС в мире.