Как загрузить pdf-файлы, на которые ссылаются страницы одного или двух уровней внутри семени

У меня есть список URL-адресов, и они выглядят следующим образом: http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225 ; внутри этих страниц есть .pdf-файлы, на которые делается ссылка. Мне нужно загрузить эти файлы с помощью wget или curl.

Я пытался это сделать:

wget -r http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225 -l2 --accept .pdf 

а также

 wget -r -l1 --no-parent -A ".pdf" http://www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225 

но я получаю ошибку протокола:

Разрешение www.contratos.gov.co (www.contratos.gov.co) … 201.234.78.2 Подключение к www.contratos.gov.co (www.contratos.gov.co) | 201.234.78.2 |: 80 .. . связанный. HTTP-запрос отправлен, ожидающий ответ … 200 OK Длина: не указано [текст / html] www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225: Ошибка протокола

Невозможно написать на www.contratos.gov.co/consultas/detalleProceso.do?numConstancia=10-10-85225 (ошибка протокола)

Какие флаги можно использовать для команды wget для анализа URL-адреса, а затем для загрузки PDF-файлов, связанных внутри начальной страницы?

One Solution collect form web for “Как загрузить pdf-файлы, на которые ссылаются страницы одного или двух уровней внутри семени”

Wget и Curl анализируют только ссылки в тегах привязки в HTML-документе.
Страница, на которую вы ссылаетесь, использует метод POST со ссылкой на документ для его загрузки.

Вам нужно будет загрузить файл и разобрать его вручную для всех ссылок. Это то, что wget не сделает для вас.

EDIT: Однако я не знаю, почему вы получаете ошибку протокола. Не могли бы вы запустить те же команды с параметром –debug и вставить вывод где-нибудь там, где мы можем это увидеть?

  • Загрузка пакета Wget и сохранение неудачных ссылок
  • linux curl POST запрос не работает
  • Могу ли я использовать wget для рекурсивного скачивания всех файлов, но не их фактического содержимого?
  • Загрузите веб-страницу, поставив все, что нужно, в выделенный каталог?
  • нижняя граница скорости загрузки в wget
  • make install - как использовать wget, а не завивать
  • Использование wget, Какая правильная команда для получения gzip-версии вместо фактического HTML
  • Wget сканирование без файла загрузки
  • Как создать локальную копию полного раздела веб-сайта из OSX с помощью wget?
  • Как Wget с условием подмножества + генерировать CHM / ... электронную книгу?
  • Как отобразить все URL-адреса в цепочке перенаправления?
  • Linux и Unix - лучшая ОС в мире.