Как использовать wget для загрузки всех ссылок с моего сайта и сохранения в текстовый файл?

Я пытаюсь загрузить все ссылки с aligajani.com. Их 7, за исключением домена facebook.com, который я не хочу игнорировать. Да, значит, я не хочу скачивать ссылки, начинающиеся с домена facebook.com. Кроме того, я хотел бы, чтобы они были сохранены в .txt-файле, построчно. Таким образом, было бы 7 строк. Вот что я пробовал до сих пор. Это просто загружает все. Не хочу этого.

wget -r -l 1 http://aligajani.com 

4 Solutions collect form web for “Как использовать wget для загрузки всех ссылок с моего сайта и сохранения в текстовый файл?”

wget не предлагает такой опции. Пожалуйста, прочитайте его страницу руководства.

Вы можете использовать lynx для этого:

 lynx -dump -listonly http://aligajani.com | grep -v facebook.com > file.txt 

Со своей страницы:

  -listonly for -dump, show only the list of links. 

Как указывали другие, wget не предназначен для этого. Однако вы можете разобрать свой вывод, чтобы получить то, что вы хотите:

 $ wget http://aligajani.com -O - 2>/dev/null | grep -oP 'href="\Khttp:.+?"' | sed 's/"//' | grep -v facebook > file.txt 

Это создает файл с именем file.txt со следующим содержимым:

 http://www.linkedin.com/pub/ali-ayaz-gajani/17/136/799 http://www.quora.com/Ali-Gajani http://www.mrgeek.me/ http://twitter.com/aligajani http://www.mrgeek.me http://aligajani.com 

Вы можете использовать для этого -o журнал, затем перемещаться и извлекать ссылки из файла журнала, используя этот https://www.garron.me/en/bits/wget-download-list-url-file.html .-

В терминале используйте следующее:

  wget -r -p -k http://website 

или

  wget -r -p -k --wait=#SECONDS http://website 

Примечание. Второй – для сайтов, которые могут указывать на то, что вы загружаете слишком быстро; может также привести к потере обслуживания, поэтому используйте второй для большинства обстоятельств, чтобы быть вежливым. Все будет размещено в папке с именем так же, как на веб-сайте в каталоге корневой папки или в любом другом каталоге, в котором у вас есть терминал, во время выполнения команды.

  • Устранение неполадок `$ wget -A.pdf -r site.com`
  • Загрузите несколько файлов с помощью wget параллельно
  • Загрузите весь сегодняшний стек с помощью wget
  • Загрузите рекурсивно с помощью wget
  • wget - считается, что загрузка выполняется через 1 секунду, хотя это не
  • WGET Продолжить без --no-check-certificate
  • Почему curl -O -C на Mac не загружается
  • Могу ли я захватить и отправить запросы GET с помощью wget?
  • Равная команда между wget и cURL (с опциями)?
  • Как загрузить файл с FTP-сервера, а затем автоматически удалить его с сервера после завершения загрузки?
  • Почему я не могу зеркально отразить веб-сайт (используя wget)?
  • Interesting Posts
    Linux и Unix - лучшая ОС в мире.