Избегайте раздувания размера файла при удалении OCRed текста из файла pdf?

Я использую pdfimages и convert рекомендованный Anthon для удаления OCRed текста pdf-файла , а размер файла PDF изменяется с 29MB до 373MB.

Мой первый шаг – разбить файл pdf на файл pbm на страницу pdf:

 mkdir tmp1 pdfimages ull.pdf tmp1/ull 

Общий размер сгенерированных файлов pbm составляет 788M.

На следующем шаге я конвертирую и объединяю сгенерированные файлы pbm в файл pdf

 cd tmp1 convert ull*.pbm all.pdf 

Это идет не так, потому что для него требуется более 1 ГБ места /tmp , а у моего /tmp нет такого свободного места. Итак, мой второй шаг на самом деле:

 mkdir tmp2 for i in ull-*.pbm; do convert $i tmp2/$i.pdf ; done cd tmp2 pdftk ull-???.pbm.pdf ull-????.pbm.pdf cat output ../../all.pdf 

Сгенерированный PDF-файл all.pdf имеет 373 МБ, намного больше, чем исходный размер 29 МБ. Я запускаю pdftk all.pdf output new.pdf compress , но он не уменьшает размер файла.

Поскольку все, что я хочу, это удалить OCRed текст из файла pdf, как я могу избежать раздувания размера файла?

  • Есть ли полнофункциональные читатели в формате PDF, которые интегрируют функцию комментариев?
  • Как поместить три тонкие страницы в PDF-страницу формата А4?
  • сценарий просмотра pdf-кода
  • Как сохранить закладки при перестановке страниц PDF-файла с помощью таких инструментов, как pdftk?
  • Печать PDF в PDF ухудшает качество?
  • Конвертировать PDF из цветового пространства sRGB в CMYK
  • конвертировать djvu в pdf
  • Сгладить прозрачность в PDF для удаления тонких белых линий?
  • One Solution collect form web for “Избегайте раздувания размера файла при удалении OCRed текста из файла pdf?”

    Если исходное изображение является файлами JPEG, вы можете использовать параметр pdfimages -j . От man pdfimages :

     -j Normally, all images are written as PBM (for monochrome images) or PPM (for non-monochrome images) files. With this option, images in DCT format are saved as JPEG files. All non-DCT images are saved in PBM/PPM format as usual. 

    Я не уверен, как управлять способом преобразования изображений в файл PDF, но вы можете использовать -resize и -resize для изменения качества сжатия.

    Вызвав convert одним из следующих способов

     TMPDIR=/home/tim/tmp convert ... MAGICK_TMPDIR=/home/tim/tmp convert ... 

    вы можете преобразовать use /home/tim/tmp в качестве временного каталога и обойти проблемы с пространством. (Что, вероятно, не влияет на результирующий размер файла).

    Interesting Posts

    Как хорошо работать?

    Почему файлы-nr и lsof рассчитываются на открытые файлы?

    Как изменился переход на 64 бит в Linux?

    Как получить Realtek Semiconductor Co., Ltd. RTL8188EE Wireless Network Adapter (rev 01) беспроводная карта, работающая на Debian Wheezy

    Извлечение одного файла из нескольких ZIP-файлов

    Безопасно ли монтировать такую ​​же файловую систему ext4 в разных точках подключения?

    Как APT справляется с разными программами с тем же именем?

    Нужна помощь в преобразовании строки из файла в дату

    Как найти старые каталоги в локальном каталоге, используя find в AIX?

    Powertop не отображает Power est. Column

    Как делиться файлами между RHEL и Ubuntu

    Tmux: эквивалентная команда для отображения -d -m -S session_name

    как запустить команду диалога с запросом

    Перечислить все программное обеспечение, установленное из определенного компонента (не бесплатно, вклад)

    Создайте команду, поместив строку в tty

    Linux и Unix - лучшая ОС в мире.