wget –spider: как определить, где неработающие ссылки происходят из

Я использую встроенный в spider режим wget для удобства, чтобы быстро проверить местный сайт на наличие неработающих ссылок. Сегодня утром я обратил внимание на производственный сайт, на который мы только что вносили серьезные изменения, и на нем появляются 3 сломанные ссылки, но, похоже, невозможно сказать, где они! (Он только говорит, к чему они привязаны, и нет простого способа связать это только со страницей.)

Параметры, которые я сейчас использую, – wget -r -nv --spider http://www.domain.com/ -o /path/to/log.txt . Кто-нибудь знает опцию, которую я пропускаю, способ прочитать результат или даже просто заменить эту команду, которая также позволит мне узнать, в каком файле появляются ссылки (и в идеале строка #)?

2 Solutions collect form web for “wget –spider: как определить, где неработающие ссылки происходят из”

Вы должны иметь возможность просматривать журналы веб-сервера в сочетании с запуском wget. Найдите 404 в журнале и потяните поле referrer . Это скажет вам страницу, содержащую неработающую ссылку.

Затем следует просто рассмотреть эту страницу для ссылки на нарушение.

Хороший способ (не связанный с журналами веб-сервера) заключается в использовании флага --debug и grep для ^Referer:

В командной строке:

 wget -r -nv --spider http://www.domain.com/ 2>&1 | egrep -A 1 '(^---response end---$|^--[0-9]{4}-[0-9]{2}-[0-9]{2}|^[0-9]{4}-[0-9]{2}-[0-9]{2} ERROR|^Referer:|^Remote file does not)' 

Вы можете сделать подобное grepping в своем журнале. Caveat: некоторые wget не скомпилированы с поддержкой --debug

  • Метод для быстрого поиска DNS-поиска во время wget
  • wget и cURL - явный адрес IPv6
  • Почему wget -r не получает все подкаталоги FTP?
  • Получение md5 во время wget
  • Как я могу использовать wget для создания списка URL-адресов из index.html?
  • Загрузите файл на сервер?
  • Переименовать wget загруженный родительский каталог
  • curl, wget ничего не возвращают
  • После загрузки файла .asp или .php его можно преобразовать в .html-файл?
  • wget веб-сайт в csv
  • Устранение неполадок `$ wget -A.pdf -r site.com`
  • Interesting Posts

    Использование gdb для проверки переменных среды

    Сервер загрузки проблем из командной строки GRUB

    Компиляция ядра для минимального выполнения программы

    Как установить DivFix ++ в Scientific-linux 6.1?

    Могут ли Linux-системы на нескольких виртуальных машинах совместно использовать один и тот же раздел подкачки?

    Переход из цикла-aes в cryptsetup

    Можно ли использовать / dev / stdin, если программа не читает со стандартного ввода, а только из файлов?

    Извлечение конкатенированных архивов cpio

    монитор сетевого трафика в Debian?

    Можно ли перенаправить все URL-адреса wikipedia в wikipedia zero через файл hosts?

    Проблемы с perl-скриптом, который должен удалять строки в строках одного файла из другого файла

    Почему мой SSH-аутентификационный сокет отличается от man-страниц?

    Какой урон, если я случайно удалю пакет libX11?

    Telnet на Linux Server

    Arch Linux: неудовлетворенные зависимости: open-vm-tools-modules требует linux <3.10

    Linux и Unix - лучшая ОС в мире.