Intereting Posts

Параметры Wget Directory

Я прочитал руководство Wget, но, к сожалению, он, похоже, не затрагивает мою проблему, поэтому я был бы очень благодарен, если бы кто-то мог мне помочь.

У нас есть веб-сайт (скажем) website.com, который напрямую ссылается на (скажем) website.com/1/, website.com/2/, … и т. Д.

Теперь каждая страница website.com/r/, где r является целым числом, ссылается на ряд PDF-документов. Вместо того, чтобы они находились на веб-сайте website.com/r/doc-i.pdf – что было бы удобно – все они находятся на веб-сайте website.com/files/doc-i.pdf.

Таким образом, когда я запускаю команду wget -r -l 2 -A pdf website.com , я, конечно же, получаю большую папку с именем «файлы» со всеми документами pdf, содержащимися в ней.

Однако я бы предпочел, чтобы они были организованы в разные папки с именем 1, 2, …, n, которые соответствуют странице, с которой они были загружены. Поскольку я буду загружать в общей сложности около 10 000 файлов PDF, я бы предпочел не делать это вручную.

Итак, как я могу сообщить Wget об организации файлов, а не структуре каталога веб-сайта, но по пути, по которому нужно было перейти к файлу?

Надеюсь, мои разъяснения ясны, и этого достичь не так уж сложно.

(непроверенный) Следующая потребность в некоторой настройке – это просто общая идея:

 ### get level1 wget -r -l website.com/ #### for each html file otained, for a in $(find website.com -name '*.html' ) do ### get level 2 but prefix it with the base name b=$(basename $a) wget -P $b -r -l 1 -A pdf http://$a done 
  • вероятно, найти будет какой-то туннег
  • возможно, добавьте что-то вроде mv $b/website.com/files FINAL/$b чтобы уменьшить уровни