Найти ссылки и их позиции в формате PDF

Мне нужно найти все ссылки в файле PDF, а также страницу, на которой они находятся, и их позицию X / Y. Есть ли какой-нибудь инструмент или комбинация инструментов, которые я могу использовать для этого?

  • Настройка Org-режима для открытия PDF-файлов с помощью evince
  • Как установить evince на выпуск CentOS Linux 7.0.1406
  • Инвертировать цвета в целом PDF (конвертирование)
  • Печать PDF в PDF ухудшает качество?
  • Как преобразовать справочную страницу troff с символами UTF-8 (чешский, если быть точным) в PDF
  • Преобразование PDF-файла в epub
  • Как сохранить копию защищенной формы PDF в Evince?
  • Как сортировать имена файлов в числовом порядке и измененный порядок времени?
  • One Solution collect form web for “Найти ссылки и их позиции в формате PDF”

    Я не слышал ни одного инструмента, который мог бы сообщить вам координаты какого-либо текста или ссылки в pdf- файле. Это даже немного сложно представить, как это можно сделать надежно – я думаю, что инструмент должен был бы либо вычислить геометрию всего текста в документе (возможно, модификация некоторой стандартной библиотеки PDF-рендеринга, такой как poppler была бы необходима для это) или иным образом основывать свою оценку на каком-то инструменте X-автоматизации, работающем над программой просмотра PDF.

    То, что вы можете сделать без особых усилий, – grep для ссылок в незашифрованном и несжатом pdf-файле. Вот несколько примеров поиска grep вы можете использовать:

     grep -ao "http://[[:print:]]*" TheFile.pdf grep -ao "http://[[:alnum:]./]*" TheFile.pdf grep -ao "http://[^ ']*" TheFile.pdf grep -ao "URI(http://.*[^\])" TheFile.pdf 

    Последнее должно быть самым близким к тому, какие ссылки можно найти при чтении файла. Тем не менее, вам, вероятно, придется немного поработать над этими регулярными выражениями, чтобы извлечь нужные ссылки из определенного документа.

    Если документ упакован или зашифрован, вам сначала нужно извлечь из него простую версию. Для этого используйте pdftk или аналогичный инструмент.

    Linux и Unix - лучшая ОС в мире.