Как получить список URL-адресов из URL рекурсивно с фильтрацией
Я хочу получить список URL-адресов, которые содержат vimeo.com
с веб-сайта рекурсивно командой, так что я могу передать его на vimeo_downloader.sh .
Я предпочитаю использовать wget
, но также я доволен другими вариантами.
- Несколько учетных данных пользователя в wget
- Как получить прямую ссылку на загружаемый файл (для использования с wget или cURL), который обычно загружается через Javascript в веб-браузере
- Как использовать wget для загрузки определенных файлов из определенного каталога, когда сам каталог не имеет index.html?
- Как создать локальную копию полного раздела веб-сайта из OSX с помощью wget?
- bash не может найти команду mvn после установки
пример
index.html
<a href="01.html">01</a> <a href="02.html">02</a> <a href="03.html">03</a> <a href="04.html">04</a> <a href="05.html">05</a> <a href="06.html">06</a>
01.html
... ... src="//player.vimeo.com/video/xxxxxxxxxx?api=1" ... ...
Аналогично, от 02.html
до 06.html
есть URL-адрес vimeo. Как получить все URL-адреса vimeo с 01~06.html
?
- Загрузите сразу несколько URL-адресов
- Почему параллель замедляется через некоторое время?
- wget - поврежденные каталоги
- замена внутри параллельной командной строки
- Инструменты для анализа автоматически генерируемых HTTP-индексов?
- wget from ftp: суффикция создания страницы по умолчанию
- Как скопировать чужие папки с public.me.com с помощью wget-подобного инструмента?
- как установить папку назначения для wget?
One Solution collect form web for “Как получить список URL-адресов из URL рекурсивно с фильтрацией”
Вам нужно получить список URL-адресов, затем разобрать ссылки для подачи на скачивание. Поскольку вы используете внешнюю программу для загрузки, а не wget
вам действительно не нужны параметры рекурсивной загрузки wget
.
Предполагая, что GNU grep
позволяет печатать только соответствующий текст, вы можете захватить URL-адреса vimeo с помощью:
wget -q -O - -i urllist.txt | grep -oi "http://vimeo.com/[0-9]\+"
Затем передать это в загрузчик
urls=$(wget -q -O - -i urllist.txt | grep -oi "http://vimeo.com/[0-9]\+") for url in $urls; do echo "Downloading [$url]" vimeo_downloader.sh "$url" done