Как получить список URL-адресов из URL рекурсивно с фильтрацией

Я хочу получить список URL-адресов, которые содержат vimeo.com с веб-сайта рекурсивно командой, так что я могу передать его на vimeo_downloader.sh .

Я предпочитаю использовать wget , но также я доволен другими вариантами.

пример

index.html

 <a href="01.html">01</a> <a href="02.html">02</a> <a href="03.html">03</a> <a href="04.html">04</a> <a href="05.html">05</a> <a href="06.html">06</a> 

01.html

 ... ... src="//player.vimeo.com/video/xxxxxxxxxx?api=1" ... ... 

Аналогично, от 02.html до 06.html есть URL-адрес vimeo. Как получить все URL-адреса vimeo с 01~06.html ?

One Solution collect form web for “Как получить список URL-адресов из URL рекурсивно с фильтрацией”

Вам нужно получить список URL-адресов, затем разобрать ссылки для подачи на скачивание. Поскольку вы используете внешнюю программу для загрузки, а не wget вам действительно не нужны параметры рекурсивной загрузки wget .

Предполагая, что GNU grep позволяет печатать только соответствующий текст, вы можете захватить URL-адреса vimeo с помощью:

 wget -q -O - -i urllist.txt | grep -oi "http://vimeo.com/[0-9]\+" 

Затем передать это в загрузчик

 urls=$(wget -q -O - -i urllist.txt | grep -oi "http://vimeo.com/[0-9]\+") for url in $urls; do echo "Downloading [$url]" vimeo_downloader.sh "$url" done 
  • Как заставить wget сохранять содержимое веб-страницы в файл?
  • загрузить несколько файлов из sourceforge
  • Рекурсивный wget дает «недопустимый символ найден в заданном диапазоне»
  • Как скопировать чужие папки с public.me.com с помощью wget-подобного инструмента?
  • Почему не работает wget url / mediafile.ext> medafile2.ext?
  • Загрузите все файлы .gz с веб-сайта с помощью http
  • Как загрузить файл через SSH-сервер?
  • Проблема с использованием wget для создания статического архива веб-сайта
  • Как получить размер (deb) файла из ссылки для загрузки / URL?
  • Как узнать команду, выполняемую процессом?
  • Проблема с wget и пробелами
  • Linux и Unix - лучшая ОС в мире.