wget –spider: как определить, где неработающие ссылки происходят из

Я использую встроенный в spider режим wget для удобства, чтобы быстро проверить местный сайт на наличие неработающих ссылок. Сегодня утром я обратил внимание на производственный сайт, на который мы только что вносили серьезные изменения, и на нем появляются 3 сломанные ссылки, но, похоже, невозможно сказать, где они! (Он только говорит, к чему они привязаны, и нет простого способа связать это только со страницей.)

Параметры, которые я сейчас использую, – wget -r -nv --spider http://www.domain.com/ -o /path/to/log.txt . Кто-нибудь знает опцию, которую я пропускаю, способ прочитать результат или даже просто заменить эту команду, которая также позволит мне узнать, в каком файле появляются ссылки (и в идеале строка #)?

2 Solutions collect form web for “wget –spider: как определить, где неработающие ссылки происходят из”

Вы должны иметь возможность просматривать журналы веб-сервера в сочетании с запуском wget. Найдите 404 в журнале и потяните поле referrer . Это скажет вам страницу, содержащую неработающую ссылку.

Затем следует просто рассмотреть эту страницу для ссылки на нарушение.

Хороший способ (не связанный с журналами веб-сервера) заключается в использовании флага --debug и grep для ^Referer:

В командной строке:

 wget -r -nv --spider http://www.domain.com/ 2>&1 | egrep -A 1 '(^---response end---$|^--[0-9]{4}-[0-9]{2}-[0-9]{2}|^[0-9]{4}-[0-9]{2}-[0-9]{2} ERROR|^Referer:|^Remote file does not)' 

Вы можете сделать подобное grepping в своем журнале. Caveat: некоторые wget не скомпилированы с поддержкой --debug

  • Запись вывода wget или curl в пользовательское имя файла на основе URL-адреса
  • Что такое флаг для загрузки скрытых файлов с помощью wget?
  • В чем смысл wget -O -
  • wget from ftp: суффикция создания страницы по умолчанию
  • Как объединить wget, сортировать и сохранять в новое имя файла?
  • Почему возможно> / dev / null 2> & 1 не работает?
  • Ошибка при перезагрузке Wget из памяти
  • Как использовать wget для загрузки с хостинговых сайтов?
  • вывод команды curl в переменной
  • Загрузите все файлы .gz с веб-сайта с помощью http
  • Как отобразить все URL-адреса в цепочке перенаправления?
  • Linux и Unix - лучшая ОС в мире.