Избегайте раздувания размера файла при удалении OCRed текста из файла pdf?

Я использую pdfimages и convert рекомендованный Anthon для удаления OCRed текста pdf-файла , а размер файла PDF изменяется с 29MB до 373MB.

Мой первый шаг – разбить файл pdf на файл pbm на страницу pdf:

 mkdir tmp1 pdfimages ull.pdf tmp1/ull 

Общий размер сгенерированных файлов pbm составляет 788M.

На следующем шаге я конвертирую и объединяю сгенерированные файлы pbm в файл pdf

 cd tmp1 convert ull*.pbm all.pdf 

Это идет не так, потому что для него требуется более 1 ГБ места /tmp , а у моего /tmp нет такого свободного места. Итак, мой второй шаг на самом деле:

 mkdir tmp2 for i in ull-*.pbm; do convert $i tmp2/$i.pdf ; done cd tmp2 pdftk ull-???.pbm.pdf ull-????.pbm.pdf cat output ../../all.pdf 

Сгенерированный PDF-файл all.pdf имеет 373 МБ, намного больше, чем исходный размер 29 МБ. Я запускаю pdftk all.pdf output new.pdf compress , но он не уменьшает размер файла.

Поскольку все, что я хочу, это удалить OCRed текст из файла pdf, как я могу избежать раздувания размера файла?

  • Есть ли способ сгладить .pdf-изображение из командной строки?
  • Объединение и экспорт текста OCRed в файл PDF и из него
  • Использование Evince вместо Okular для Alpine (настройка MIME для просмотра PDF-файлов)
  • Сдвиньте два JPEG вместе в PDF-файл
  • Как создать индексы в pdf?
  • Является ли использование epub2pdf потенциальной угрозой безопасности? Есть ли альтернатива?
  • Как вставить пустую страницу в PDF с помощью ghostscript или pdftk?
  • Можно извлечь название и pagenum каждой страницы в pdf-файле
  • One Solution collect form web for “Избегайте раздувания размера файла при удалении OCRed текста из файла pdf?”

    Если исходное изображение является файлами JPEG, вы можете использовать параметр pdfimages -j . От man pdfimages :

     -j Normally, all images are written as PBM (for monochrome images) or PPM (for non-monochrome images) files. With this option, images in DCT format are saved as JPEG files. All non-DCT images are saved in PBM/PPM format as usual. 

    Я не уверен, как управлять способом преобразования изображений в файл PDF, но вы можете использовать -resize и -resize для изменения качества сжатия.

    Вызвав convert одним из следующих способов

     TMPDIR=/home/tim/tmp convert ... MAGICK_TMPDIR=/home/tim/tmp convert ... 

    вы можете преобразовать use /home/tim/tmp в качестве временного каталога и обойти проблемы с пространством. (Что, вероятно, не влияет на результирующий размер файла).

    Interesting Posts

    SCSI, SATA, RAID, о мой. Пожалуйста, назовите меня мастером восстановления RAID

    Pentesting с виртуальной машины, скрывая хост

    Как получить информацию от sshd о установленных удаленных туннелях

    Как обеспечить, чтобы Bluetooth был отключен после загрузки?

    Ctrl-y, yanking содержимое x-clipboard на терминал добавляет строку командной строки оболочки

    объединение вывода из разных сценариев в разные файлы в цикле

    Эффективность совместного использования Samba отличается от Windows / Linux

    POSIX упоминает cc или только c99?

    Запомнить enable -n в дочерней оболочке

    Что означает «пустой файл печати» и как я могу его диагностировать?

    Как изменить стандартную (двоичную) версию python в тюрьме FreeBSD?

    проблема с установкой fedora 19

    Лучший способ только перечислить файлы, которыми я владею

    Как настроить exim для использования SMTP-сервера моего ISP (в системе, отличной от Debian)?

    Не удается подключиться к Интернету в Ubuntu 10.10

    Linux и Unix - лучшая ОС в мире.