Избегайте раздувания размера файла при удалении OCRed текста из файла pdf?

Я использую pdfimages и convert рекомендованный Anthon для удаления OCRed текста pdf-файла , а размер файла PDF изменяется с 29MB до 373MB.

Мой первый шаг – разбить файл pdf на файл pbm на страницу pdf:

 mkdir tmp1 pdfimages ull.pdf tmp1/ull 

Общий размер сгенерированных файлов pbm составляет 788M.

На следующем шаге я конвертирую и объединяю сгенерированные файлы pbm в файл pdf

 cd tmp1 convert ull*.pbm all.pdf 

Это идет не так, потому что для него требуется более 1 ГБ места /tmp , а у моего /tmp нет такого свободного места. Итак, мой второй шаг на самом деле:

 mkdir tmp2 for i in ull-*.pbm; do convert $i tmp2/$i.pdf ; done cd tmp2 pdftk ull-???.pbm.pdf ull-????.pbm.pdf cat output ../../all.pdf 

Сгенерированный PDF-файл all.pdf имеет 373 МБ, намного больше, чем исходный размер 29 МБ. Я запускаю pdftk all.pdf output new.pdf compress , но он не уменьшает размер файла.

Поскольку все, что я хочу, это удалить OCRed текст из файла pdf, как я могу избежать раздувания размера файла?

One Solution collect form web for “Избегайте раздувания размера файла при удалении OCRed текста из файла pdf?”

Если исходное изображение является файлами JPEG, вы можете использовать параметр pdfimages -j . От man pdfimages :

 -j Normally, all images are written as PBM (for monochrome images) or PPM (for non-monochrome images) files. With this option, images in DCT format are saved as JPEG files. All non-DCT images are saved in PBM/PPM format as usual. 

Я не уверен, как управлять способом преобразования изображений в файл PDF, но вы можете использовать -resize и -resize для изменения качества сжатия.

Вызвав convert одним из следующих способов

 TMPDIR=/home/tim/tmp convert ... MAGICK_TMPDIR=/home/tim/tmp convert ... 

вы можете преобразовать use /home/tim/tmp в качестве временного каталога и обойти проблемы с пространством. (Что, вероятно, не влияет на результирующий размер файла).

  • Добавление и редактирование закладок в pdf
  • Сдвиньте два JPEG вместе в PDF-файл
  • Основные материалы охватывают текст в Evince
  • Почему эта команда gs не работает на --filename.pdf?
  • Средство просмотра / чтения PDF, которое поддерживает циклическое перемещение по документам
  • Как изменить размер содержимого PDF без изменения размера страницы?
  • сгенерировать гиперссылку оглавления и вставить в существующий PDF-файл
  • Не удается распечатать в PDF с помощью cups-pdf; используется для работы, теперь «не удалось установить режим файла» печать как не-root
  • Как экспортировать визитные карточки на одну страницу?
  • используя `lpr`, чтобы получить имя файла и номера страниц, напечатанные в pdf
  • Как поместить три тонкие страницы в PDF-страницу формата А4?
  • Средство просмотра PDF с разрезами для больших файлов
  • Linux и Unix - лучшая ОС в мире.