Найти ссылки и их позиции в формате PDF

Мне нужно найти все ссылки в файле PDF, а также страницу, на которой они находятся, и их позицию X / Y. Есть ли какой-нибудь инструмент или комбинация инструментов, которые я могу использовать для этого?

  • Как шифровать (защищать паролем) PDF без шифрования метаданных?
  • Самый простой способ создать pdf-файл из шаблона с помощью командной строки (без pdflatex)?
  • Как создаются документы GNU в форматах PDF?
  • gs не может найти правильный шрифт
  • просмотрщик только для командной строки
  • Есть ли способ узнать / указать, какие шрифты используются в pdf-файле?
  • Как печатать защищенный паролем pdf с чашками из командной строки?
  • Как объединить 2 файла PDF с порядком перемежения страниц?
  • One Solution collect form web for “Найти ссылки и их позиции в формате PDF”

    Я не слышал ни одного инструмента, который мог бы сообщить вам координаты какого-либо текста или ссылки в pdf- файле. Это даже немного сложно представить, как это можно сделать надежно – я думаю, что инструмент должен был бы либо вычислить геометрию всего текста в документе (возможно, модификация некоторой стандартной библиотеки PDF-рендеринга, такой как poppler была бы необходима для это) или иным образом основывать свою оценку на каком-то инструменте X-автоматизации, работающем над программой просмотра PDF.

    То, что вы можете сделать без особых усилий, – grep для ссылок в незашифрованном и несжатом pdf-файле. Вот несколько примеров поиска grep вы можете использовать:

     grep -ao "http://[[:print:]]*" TheFile.pdf grep -ao "http://[[:alnum:]./]*" TheFile.pdf grep -ao "http://[^ ']*" TheFile.pdf grep -ao "URI(http://.*[^\])" TheFile.pdf 

    Последнее должно быть самым близким к тому, какие ссылки можно найти при чтении файла. Тем не менее, вам, вероятно, придется немного поработать над этими регулярными выражениями, чтобы извлечь нужные ссылки из определенного документа.

    Если документ упакован или зашифрован, вам сначала нужно извлечь из него простую версию. Для этого используйте pdftk или аналогичный инструмент.

    Interesting Posts

    В настоящий момент перестановка не поддерживается. Вы должны объединить объем, а затем снова установить его

    Как изменить разрешение Symlink?

    Есть ли способ моделирования высокой задержки?

    Почему `man -k cron` говорит` vixie-cron (rpm) `для некоторых результатов и как я читаю эти страницы?

    Получить список пользователей, имеющих доступ к хосту

    Как войти в однопользовательский режим с отключенным пользователем root?

    не может установить в linux mint rebecca

    Как загружать операционную систему Chromium OS verbosely?

    Оптимизировать ext4 для постоянной работы

    StackExchange с Elinks

    Сеть ограничения скорости, но разрешить разрывы на TCP-соединение до ограничения

    Как я могу узнать, когда была запущена работа cron или она разбилась?

    Что означает и т.д.?

    почему suid бит не отменяется после изменения файла

    Почему BIND не пытается автоматически запускать все серверы имен, особенно если сервер имен IPv6 недоступен?

    Linux и Unix - лучшая ОС в мире.