Печать PDF в PDF ухудшает качество?

Скажем, у меня есть PDF-файл, который очень длинный. Прочитав некоторые из них, я решил, что в нем есть посторонние страницы; но вместо поиска веб-сайта каждый раз, когда я решаю исключить страницу, я хочу распечатать ее в формате PDF и просто не выбрать эту страницу для печати (используя CUPS-PDF). Разве это ухудшит качество PDF, особенно если я буду делать это несколько раз? Есть ли лучший способ добиться того, что я ищу? Я попробовал PDFEdit со смешанными результатами и хотел бы что-то более надежное. Конечно, я всегда могу просто вернуться на сайт и сохранить новую версию, используя ту же технику пренебрежения теми страницами, которые мне не нужны.

3 Solutions collect form web for “Печать PDF в PDF ухудшает качество?”

В принципе, можно печатать PDF через некоторую цепочку программ, которая заканчивается в формате PDF без потери качества.

Чтобы гарантировать конверсию без потерь, должны произойти две важные вещи:

  1. Каждое звено в цепочке должно понимать все элементы документа и иметь возможность передавать их в следующую цепочку в цепочке без потерь:

    • Если документ содержит встроенные шрифты, шрифт также должен быть установлен где-то, когда писатель PDF может найти его, чтобы он мог повторно внедрить его, или встроенный шрифт должен каким-то образом пройти через цепочку.

    • Если документ содержит встроенные апплеты – JavaScript, Flash, Postscript … – они должны передаваться без изменений.

    • Если в документе содержатся гиперссылки, активные формы, текстовые слои OCR, пользовательская нумерация страниц, непечатная разметка, комментарии, метаданные и т. Д., Все части вдоль цепочки должны знать, как передавать эти данные через автора.

    • Если документ содержит смешанные размеры страниц, программы в цепочке также должны быть способны к этому трюку.

  2. Никакая ссылка в цепочке не может переинтерпретировать любые данные, проходящие через нее. Обычно в цепочках PDF для повторной дискретизации изображений и преобразования в более эффективные форматы потерь, например. Даже если изображения в исходном PDF-файле уже являются изображениями с низким разрешением DPI, фрагменты в цепочке могут выбрать другой DPI или установить другой уровень сжатия.

    (Кстати, сам факт того, что есть JPEG на одном или обоих концах PDF-to-PDF, технически означает, что цепочка не является без потерь, если только необработанные данные JPEG не передаются как-то. Однако, возможно, что шаг рекомпрессии будет восприниматься без потерь. Это не всегда случается, однако, иногда специально.)

До сих пор я рассматривал только качество восприятия. Можно добиться конверсии без потерь, но потерять редактируемость или получить значительно больший файл:

  • PDF-документ, содержащий текст, который был создан из основного источника (то есть не для сканирования или преобразования из какого-либо другого формата представления документа), обычно содержит фактические данные текста и шрифта, которые позволяют читателю PDF нарисовать текст на экране в так же, как это делает текстовый процессор.

    Такой текст можно превратить в 2D растровое или векторное искусство в режиме без потерь. PDF даже позволяет сохранять возможности поиска и доступ к экранированию с помощью непечатаемых текстовых слоев OCR. Однако такое преобразование могло бы увеличить размер файла и сделать редактирование намного сложнее.

  • Векторное искусство может быть растрировано, используя DPI, равное или даже кратное DPI печати / просмотра.

  • Цепь может конвертировать все JPEG в TIFF, чтобы не потерять абсолютно никакого качества изображения.

  • Цепочка может включать JPEG в JPEG, без изменения DPI, но использовать высокую фиксированную настройку качества, чтобы избежать создания заметных артефактов.

Для вашего простого случая, удаляя страницу, довольно легко получить гарантию отсутствия потерь, если вы используете программу, которая хорошо понимает формат файла PDF, чтобы просто удалить данные страницы. Это вполне выполнимо, поскольку страницы в PDF более или менее автономны. Это всего лишь вопрос поиска инструмента, который достаточно хорошо знает о конкретном варианте PDF, в котором закодированы ваши существующие файлы. PDF является очень сложным файловым форматом, поэтому для программ, претендующих на поддержку PDF, обычно существует лишь частичная поддержка. Возможно, что есть только одна программа, которая действительно понимает 100% PDF: Adobe Acrobat Pro. Меня не удивило бы узнать, что каждая другая программа, которая имеет дело с PDF, на самом деле является подмножеством.

В нижней строке я бы не ожидал, что PDF-via-print-from-PDF-цепочка даст такие гарантии качества. Есть слишком много возможностей для интерпретации и посредничества.

Если я правильно понимаю вашу главную цель, вам не нужно проходить какие-либо хлопоты с печатью в формате PDF. Вы можете использовать инструмент командной строки, например pdftk для извлечения любого набора страниц непосредственно из файла PDF и сохранения их как нового. (Он также позволяет выполнять многие другие операции, такие как оптимизация, добавление / удаление пароля, поворот некоторых страниц и т. Д.). Инструмент доступен в репозиториях пакетов (возможно) всех настольных дистрибутивов Linux.

Основная операция pdftk вы используете, – cat . Он работает довольно интуитивно – например:

 pdftk input_file.pdf cat 3-23 50-end output output_file.pdf 

создаст файл output_file.pdf состоящий из страниц с 3 по 23 и 50 до конца исходного файла input_file.pdf . Посмотрите на man pdftk для получения дополнительных примеров (в конце руководства).

В общем, нет, потери качества не должно происходить. Если это так, программа виновата, а не формат. Некоторые вещи, которые могут произойти, которые могут быть истолкованы как потеря качества:

  • Изображения могут быть повторно сжаты (потенциально вызывая потерю поколений)
  • Текст (и другие векторы) может быть превращен в сплайны, что может вызвать проблемы с удобством использования (невозможность копирования текста) и т. Д.

Я никогда не использовал CUPS-PDF или PDFEdit , поэтому это всего лишь предположения о том, что может произойти, то есть я не знаю, возможно ли, что они будут или нет.

  • Объедините в PDF первую страницу нескольких файлов odt в алфавитном порядке
  • Как сортировать имена файлов в числовом порядке и измененный порядок времени?
  • Объединить части страниц PDF-документа
  • Как извлечь цвета из PDF-файла?
  • Как получить `pdftotext` для вывода текста в читаемом кодировании?
  • Редактор PDF с регулярными выражениями для закладок?
  • Автоматическая перезагрузка измененного файла теряется в позиции Zathura
  • как pdfjoin пейзаж и портретные изображения JPEG в один файл PDF?
  • Печать двух PDF на одном листе без масштабирования
  • Может ли htmldoc создавать многоуровневые закладки PDF?
  • Неверная эмблема, используемая для PDF-файлов, созданных LibreOffice
  • Interesting Posts

    Как подсчитать количество запусков оболочки / терминалов?

    Как рассчитать загрузку процессора?

    Чтение двоичного файла в виде массива байтов или 16 или 32 бит с использованием сценария оболочки

    ubuntu, как lightdm в arch linux

    Использование rsync с опцией verbose и фильтрацией отображаемой информации

    Предотвратить выход grep из-за выхода

    Что означает это регулярное выражение?

    Объединение папок с одним и тем же именем, но с другим корпусом

    Подавить предупреждение от ps -aux на Linux

    Диспетчерский скрипт сетевого администратора больше не работает

    команда не найдена через скрипт оболочки, но работает на терминале

    указать геометрию нового окна gnuplot в lxde

    FTP «помещает» не копирование файла на удаленный хост при запуске из сценария оболочки, но копирует файл на удаленный хост при запуске вручную

    Сравните аналогичный файл и не похожие файлы, отображаемые ниже вывода в awk?

    case multi-pattern со строками

    Linux и Unix - лучшая ОС в мире.