Как загрузить pdf-файлы, на которые ссылаются страницы одного или двух уровней внутри семени

У меня есть список URL-адресов, и они выглядят следующим образом: http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225 ; внутри этих страниц есть .pdf-файлы, на которые делается ссылка. Мне нужно загрузить эти файлы с помощью wget или curl.

Я пытался это сделать:

wget -r http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225 -l2 --accept .pdf 

а также

 wget -r -l1 --no-parent -A ".pdf" http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225 

но я получаю ошибку протокола:

Разрешение www.contratos.gov.co (www.contratos.gov.co) … 201.234.78.2 Подключение к www.contratos.gov.co (www.contratos.gov.co) | 201.234.78.2 |: 80 .. . связанный. HTTP-запрос отправлен, ожидающий ответ … 200 OK Длина: не указано [текст / html] www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225: Ошибка протокола

Невозможно написать на www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225 (ошибка протокола)

Какие флаги можно использовать для команды wget для анализа URL-адреса, а затем для загрузки PDF-файлов, связанных внутри начальной страницы?

One Solution collect form web for “Как загрузить pdf-файлы, на которые ссылаются страницы одного или двух уровней внутри семени”

Wget и Curl анализируют только ссылки в тегах привязки в HTML-документе.
Страница, на которую вы ссылаетесь, использует метод POST со ссылкой на документ для его загрузки.

Вам нужно будет загрузить файл и разобрать его вручную для всех ссылок. Это то, что wget не сделает для вас.

EDIT: Однако я не знаю, почему вы получаете ошибку протокола. Не могли бы вы запустить те же команды с параметром –debug и вставить вывод где-нибудь там, где мы можем это увидеть?

  • curl download отлично работает, но wget не работает с помощью ssl
  • Как я могу обновить сертификаты в своей системе, чтобы исправить ошибку wget: «Не удалось установить соединение SSL»?
  • Предотвращение зависания wget при обнаружении ошибки 500
  • Auth через wget работает, но не может перемещаться по веб-странице после него
  • Как прервать wget после получения N раз файла не найден?
  • Bash: самый быстрый способ определения размеров изображения из URL-адреса
  • Wget возвращает двоичный файл вместо html?
  • Попытка получить динамическую страницу с wget без успеха
  • wget несколько файлов PDF из ссылок
  • Как загрузить файл путем подделки IP-адреса запроса?
  • В чем смысл wget -O -
  • Linux и Unix - лучшая ОС в мире.