Как извлечь закладки из PDF-файла

У меня есть файл PDF. Мне нужны закладки в этом файле, извлеченные в текстовый файл или Excel. Мне также нужно проверить закладки из большого PDF-файла. Как я мог это сделать?

2 Solutions collect form web for “Как извлечь закладки из PDF-файла”

Вы можете использовать pdftk для извлечения данных (в частности, закладок) из файлов PDF.

Пример: с pdftk 2.02,

pdftk file.pdf dump_data_utf8 | grep '^Bookmark' 

выводит список закладок, 4 строки для каждой закладки, по форме:

 BookmarkBegin BookmarkTitle: <title in UTF8> BookmarkLevel: <number> BookmarkPageNumber: <number> 

где, например, уровень 1 соответствует разделам, уровень 2 – подразделам и т. д. Вместо dump_data_utf8 вы можете использовать dump_data , который даст вам числовые объекты HTML / XML для символов, отличных от ASCII (например, &#232; для "è").

Примечание. Без grep вы можете получить другие интересные данные, такие как метаданные (дата создания, автор, ключевые слова, заголовок и т. Д.), Количество страниц и размеры каждой страницы. Эта утилита pdftk может делать другие вещи в файлах PDF; см. его страницу руководства для полного описания.

Вы можете использовать CLI jpdftweak для извлечения закладок в формате CSV:

 java -jar -Xmx512M jpdftweak.jar "file.pdf" -savebookmarks "bmarks.csv" /dev/null 

После проверки и, возможно, изменения данных закладки вы можете загрузить его обратно в файл PDF с помощью следующей команды:

 java -jar -Xmx512M jpdftweak.jar "file.pdf" -loadbookmarks "bmarks.csv" "file_updated.pdf" 

-Xmx512M Java -Xmx512M является необязательным, но может помочь в обработке больших файлов PDF, для которых требуется больше памяти.

Возможно, вы захотите также прочитать эти связанные вопросы и ответы .

  • tesseract: возможно ли изменить вывод шрифта в OCRed pdf?
  • Как извлечь файл hocr из PDF?
  • Создайте pdf-файл, из которого невозможно извлечь изображения
  • Как просмотреть и отредактировать код файла PDF
  • Как изменить размер страниц PDF?
  • Распечатайте pdf как paps, но с фактическими шрифтами?
  • Открытие PDF-файлов в существующем окне
  • Поиск эффективного способа отображения PDF-файлов
  • Как преобразовать PDF в 4-up в ландшафтном режиме (в идеале с использованием ghostscript)?
  • Как открыть файлы с помощью приложения для вина из mc?
  • Реализация инструмента String -> PDF Stamp
  • Interesting Posts

    Приложение, отображающее последние записи в блоге на рабочем столе

    Создание скрипта, который перезапускает USB-устройства

    Возврат последнего записанного файла, содержащий определенную подстроку в имени файла?

    Часто ли выполнять сбор данных для выполнения длительной команды?

    Jabra BIZ 2400 USB HeadSet не выводит звук

    Включение возможности обнаружения Bluetooth при запуске

    Исключение отдельных строк от перенаправления

    Diff-каталоги с использованием времени модификации (mtime) и размера вместо содержимого

    Как создать / dev / null в BSD?

    Когда я закрываю крышку отсека для ноутбука?

    Как настроить контейнеры Docker для уникальных IP-адресов, которые не являются стандартными?

    Получить в реальном времени stdout из контейнера докера на удаленно выполненной команде

    Могу ли я модифицировать систему на основе .rpm для использования файлов .deb, хранилищ apt-get и debian / ubuntu?

    Как получить только имена подпапок, состоящие только из верхних букв?

    Google хост становится недоступным после пинга 10-12 раз

    Linux и Unix - лучшая ОС в мире.