Могу ли я использовать wget для рекурсивного скачивания всех файлов, но не их фактического содержимого?

Иногда я хочу только получить структуру каталогов на веб-сайте, но сами файлы не важны. Мне нужно только их имя. Похоже на зеркало, где каждая запись является просто пустым файлом-заглушкой.

Конечно, выполнение wget -r и последующего запуска скрипта для очистки всех файлов отлично работает, но оно выглядит расточительным, потому что это не приятно ни для сервера, ни для моей пропускной способности. Более эффективный, но еще менее изящный способ – вручную остановить и перезапустить процесс каждый раз, когда вы нажмете большой файл, или установите очень короткий тайм-аут. По крайней мере, это значительно уменьшает объем данных, которые я должен загрузить.

Мой вопрос: могу ли я заставить wget создавать файл, но не загружать его содержимое? Или я использую неправильный инструмент для работы?

  • cURL и wget не могут разрешать хосты, но apt-get работает
  • Использование переменной даты с помощью wget -post-data
  • Wget, отменить повторную попытку после сбоя или таймаута
  • Использование даты -1day с помощью wget
  • Предотвращение зависания wget при обнаружении ошибки 500
  • Как вы переименовываете файлы в списке, который будет использовать wget?
  • Загрузка вложенных файлов PDF с помощью wget
  • Использование wget, Какая правильная команда для получения gzip-версии вместо фактического HTML
  • One Solution collect form web for “Могу ли я использовать wget для рекурсивного скачивания всех файлов, но не их фактического содержимого?”

    Проводка ответа по запросу:

    Используйте опцию --spider :

     wget -r -nv --spider http://example.com 

    Затем вы можете проанализировать структуру сайта с помощью вывода. Это не будет загружать файлы, в которых нет никаких шансов содержать ссылки, например изображения.

    Linux и Unix - лучшая ОС в мире.