Tag: wget

Какой самый быстрый инструмент для синхронизации файлов прослушивания http

У меня огромное количество файлов (текстовых файлов), прослушиваемых на http-сервере. Я использую cron-job для загрузки этих файлов, так как количество файлов резко возрастет. Я использую wget следующим образом для загрузки файлов. wget -m http:// Однако для синхронизации и загрузки новых файлов требуется так много времени. Есть ли альтернатива, которую я могу использовать, и это будет […]

Скачать сайт с реквизитами страниц, но только изображения и CSS

Я использую команду wget которая загружает всю веб-страницу со всеми активами, реквизитами и сохраняет ее в пользовательскую папку для дальнейшей работы над ней. Мой фактический код: $ wget –adjust-extension –span-hosts –convert-links –page-requisites \ –no-directories –restrict-file-names=windows –no-parent \ –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″\ ‐‐execute robots=off –limit-rate 400k –directory-prefix=elbache \ ‐‐output-document=index.html http://www.bachecubano.com/celulares […]

Выделите часть текста из `wget` и войдите в файл?

У меня есть небольшой скрипт для тестирования FTP-сайта: #!/bin/bash wget -O /dev/null ftp://someftpsite:password@ftp.test.com/testdump300 2>&1 | \ grep ‘\([0-9.]\+ [M]B/s\)’ >> wget300.log И это показывает вывод так: 2018-07-26 22:30:06 (22.7 MB/s) – ‘/dev/null’ saved [104857600] Хорошо, и теперь я просто хочу, чтобы это было так: 2018-07-26 22:30:06 22.7 Кто-нибудь, кто может помочь? Я подозреваю, что я […]

Заставить wget создать пустой файл для всего, что он скачивает?

Я использую wget для копирования структуры каталогов с веб-сервера, который я не контролирую. Меня не волнует содержание каждого ресурса на этой веб-странице, я просто хочу создавать каталоги и файлы, отражающие структуру веб-сервера. В основном создайте много каталогов, которые содержат много файлов, файлы, которые являются настолько пустыми насколько возможно (несколько байтов на файл не проблема) Можно […]

wget сохраняет файлы как обычные текстовые файлы при загрузке

У меня есть скрипт bash в crontab, который запускает @reboot: Сам скрипт содержит команду wget для извлечения и загрузки файла из интернета. Когда я запускаю свой скрипт после входа и открытия терминала, он работает и правильно сохраняет файлы (html, png). Но когда я перезагружаю свою систему, она сохраняет запуски и сохраняет как текстовые файлы без […]

wget не разрешает относительные ссылки должным образом?

Вернуться к основам. У меня есть статическая сеть, где ссылки обычно относительны. Все отлично работает в браузерах и в Google Crawler, но wget –spider разрешает относительные ссылки на корень сайта. То есть на странице в /foo/bar.html ссылка разрешается как /https://unix.stackexchange.com/questions/459721/wget-not-resolving-relative-links-properly/test.html вместо /foo/https://unix.stackexchange.com/questions/459721/wget-not-resolving-relative-links-properly/test.html . У меня такой вопрос: я забыл / упустил из виду то, как […]

openssl висит на сервере

У меня проблема на сервере. Команды wget, curl и зависимые команды не работают при запросе через порт 443. Команды зависают на 2-3 минуты и после просто говорят “время ожидания”: # curl -v google.com:443 * About to connect() to google.com port 443 (#0) * Trying 2a00:1450:4009:806::200e… а также # openssl s_client -connect facebook.com:443 Что происходит? Это […]

Почему wget –mirror не работает на этом сайте?

Почему wget -m “httpS://www.addnature.se” пока отказался wget -m “http://www.addnature.se” просто загружает стартовую страницу? Я часто использую wget -m для зеркалирования сайтов и никогда раньше не сталкивался с этим.

Как может отсутствовать –compression в моем wget?

У меня есть опыт работы с версией Windows: GNU Wget 1.19.4 построен на mingw32. Но теперь на Ubuntu у меня есть: GNU Wget 1.19.4, неинтерактивный сетевой ретривер. Существует относительно новая опция –compression которая была добавлена ​​в 1.19.2: Новая опция – сжатие для gzip Content-Encoding И в примечаниях к выпуску 1.19.4 об этом также говорится. При […]

Возможно ли объединить –span-hosts с –no-parent в wget?

У меня есть страницы на сайте, которые представляют собой каталог с огромным количеством ссылок на другой сайт. Я не хочу ничего скачивать с сайта происхождения, который является родителем такого каталога. Однако я предпочитаю скачивать все с –span-hosts –domains targetsite.com . Будет ли –no-parent вызвать конфликт на целевом сайте? Может ли целевой сайт быть ограничен каким-либо […]

Linux и Unix - лучшая ОС в мире.