Найти ссылки и их позиции в формате PDF

Мне нужно найти все ссылки в файле PDF, а также страницу, на которой они находятся, и их позицию X / Y. Есть ли какой-нибудь инструмент или комбинация инструментов, которые я могу использовать для этого?

  • Какая команда позволяет мне читать pdf-файл из stdin?
  • Выполнять несколько команд на одной строке
  • Лигатуры отсутствуют в некоторых PDF-файлах
  • Как скрыть команды, введенные в оболочку Linux?
  • Отображение номера недели в определенном формате с помощью ncal или cal
  • Измените тему GTK из командной строки
  • Обнаружение метаданных о PDF-файле
  • Конвертирование SWF в PDF
  • Монтирование образа диска в исходном формате
  • Как получить точный размер файла и имя файла?
  • htop отображается неправильно на разных vps
  • выполнение if-statement из командной строки
  • One Solution collect form web for “Найти ссылки и их позиции в формате PDF”

    Я не слышал ни одного инструмента, который мог бы сообщить вам координаты какого-либо текста или ссылки в pdf- файле. Это даже немного сложно представить, как это можно сделать надежно – я думаю, что инструмент должен был бы либо вычислить геометрию всего текста в документе (возможно, модификация некоторой стандартной библиотеки PDF-рендеринга, такой как poppler была бы необходима для это) или иным образом основывать свою оценку на каком-то инструменте X-автоматизации, работающем над программой просмотра PDF.

    То, что вы можете сделать без особых усилий, – grep для ссылок в незашифрованном и несжатом pdf-файле. Вот несколько примеров поиска grep вы можете использовать:

     grep -ao "http://[[:print:]]*" TheFile.pdf grep -ao "http://[[:alnum:]./]*" TheFile.pdf grep -ao "http://[^ ']*" TheFile.pdf grep -ao "URI(http://.*[^\])" TheFile.pdf 

    Последнее должно быть самым близким к тому, какие ссылки можно найти при чтении файла. Тем не менее, вам, вероятно, придется немного поработать над этими регулярными выражениями, чтобы извлечь нужные ссылки из определенного документа.

    Если документ упакован или зашифрован, вам сначала нужно извлечь из него простую версию. Для этого используйте pdftk или аналогичный инструмент.

    Linux и Unix - лучшая ОС в мире.