Intereting Posts
Как удалить предустановленные расширения Gnome по умолчанию? Использование «su -» для изменения имени пользователя «No passwd entry for user» Выход из VIFM таким образом, чтобы каталог терминала был таким же, как и последний посещенный каталог VIFM Каковы накладные расходы на использование нескольких более мелких устройств рейдов в сравнении с секционированными устройствами рейдов в виде физических томов? Как узнать коды клавиш для клавиш Ctrl + вверх и вниз для экрана TERM =? Применить рекурсивный chmod только к файлам или папкам Расположение, запуск и мониторинг сервера Как объединить два ключа, чтобы действовать как клавиша FN с помощью xbindkeys? Извлечь жестко запрограммированные субтитры Рабочие места на рабочем столе Fedora 16 отсутствуют, приложения и меню рабочего стола в верхней части окна Уменьшить использование файлов в текстовой обработке Как написать небольшой журнал с bash? производительность xorg в openoffice Связь между дистрибутором и менеджером пакетов Пропустить версию пакета

Загрузите контент из определенного <div> с помощью wget

Я пытаюсь загрузить все изображения из определенной галереи ImageBam. Я попытался сделать это:

wget -P pics -H -nd -r -A '.jpg,.jpeg,.png,.gif,' -erobots=off http://www.imagebam.com/gallery/hwtfu6m7es3gun1emmpy2uheohrcckmt/ 

Но он загрузил весь сайт; все, что мне нужно, это контент из определенного <div> который включает в себя миниатюры и оригинальные изображения. Можно ли создать скрипт для загрузки контента из одного <div> а не всего веб-сайта?

Проблема сложная, потому что полные изображения не находятся под деревом родителя, поэтому трудно отличить эти пути от любых других сайтов. Кроме того, ссылки на полные изображения на самом деле являются ссылками на страницы, в которых встроено изображение с полным разрешением. Там может быть более элегантное решение, но вот один из способов сделать это, который работает.

 #!/bin/bash wget -np http://www.imagebam.com/gallery/hwtfu6m7es3gun1emmpy2uheohrcckmt/ grep HTML-Code index.html > html_code grep -E -o 'http://thumbnails[^"]+' html_code > thumb_urls grep -E -o 'http://www[^"]+' html_code > image_pages wget -i thumb_urls wget -P image_pages_dir -i image_pages for file in image_pages_dir/* do echo $file grep -m 1 -o -E 'http://.*jpg' $file >> full_image_urls done wget -i full_image_urls