Найти ссылки и их позиции в формате PDF

Мне нужно найти все ссылки в файле PDF, а также страницу, на которой они находятся, и их позицию X / Y. Есть ли какой-нибудь инструмент или комбинация инструментов, которые я могу использовать для этого?

  • Как заканчивать pdftk минус 1?
  • tiff2pdf цветной
  • Как конвертировать PDF в формат eBook
  • Печать Gnome (Evince): масштабирование pdf-файла и центра (избавление от поля страницы)
  • Распечатайте n строк до и m строк после совпадения с pdfgrep
  • Экстракт завершенных слайдов слайд-шоу PDF
  • pdf в JPG без потери качества; gscan2pdf
  • evince: Плохая печать PDF-файлов
  • One Solution collect form web for “Найти ссылки и их позиции в формате PDF”

    Я не слышал ни одного инструмента, который мог бы сообщить вам координаты какого-либо текста или ссылки в pdf- файле. Это даже немного сложно представить, как это можно сделать надежно – я думаю, что инструмент должен был бы либо вычислить геометрию всего текста в документе (возможно, модификация некоторой стандартной библиотеки PDF-рендеринга, такой как poppler была бы необходима для это) или иным образом основывать свою оценку на каком-то инструменте X-автоматизации, работающем над программой просмотра PDF.

    То, что вы можете сделать без особых усилий, – grep для ссылок в незашифрованном и несжатом pdf-файле. Вот несколько примеров поиска grep вы можете использовать:

     grep -ao "http://[[:print:]]*" TheFile.pdf grep -ao "http://[[:alnum:]./]*" TheFile.pdf grep -ao "http://[^ ']*" TheFile.pdf grep -ao "URI(http://.*[^\])" TheFile.pdf 

    Последнее должно быть самым близким к тому, какие ссылки можно найти при чтении файла. Тем не менее, вам, вероятно, придется немного поработать над этими регулярными выражениями, чтобы извлечь нужные ссылки из определенного документа.

    Если документ упакован или зашифрован, вам сначала нужно извлечь из него простую версию. Для этого используйте pdftk или аналогичный инструмент.

    Linux и Unix - лучшая ОС в мире.