Использование wget, Какая правильная команда для получения gzip-версии вместо фактического HTML

Я наткнулся на этот сайт, на котором говорят об этом.

Таким образом, при загрузке всего веб-сайта, используя gzipped-версию, какая правильная команда?

Я проверил эту команду, но я не знаю, действительно ли wget получает версию gzipped:

wget --header="accept-encoding: gzip" -m -Dlinux.about.com -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG,js,rss,xml,feed,.tar.gz,.zip,rar,.rar,.php,.txt -t 1 http://linux.about.com/ 

2 Solutions collect form web for “Использование wget, Какая правильная команда для получения gzip-версии вместо фактического HTML”

Если вы запрашиваете gzip'ed-контент (с использованием правильного заголовка accept-encoding: gzip), то я понимаю, что wget не может затем прочитать содержимое. Таким образом, вы получите единый, gzip-файл на диске, для первой страницы, которую вы нажмете, но другого контента нет.

т.е. вы не можете использовать wget для запроса содержимого gzipped и для повторного рассмотрения всего сайта одновременно.

Я думаю, что есть патч, который позволяет wget поддерживать эту функцию, но это не входит в стандартную версию дистрибутива.

Если вы включаете флаг -S, вы можете указать, отвечает ли веб-сервер правильному типу контента. Например,

 wget -S --header="accept-encoding: gzip" wordpress.com --2011-06-17 16:06:46-- http://wordpress.com/ Resolving wordpress.com (wordpress.com)... 72.233.104.124, 74.200.247.60, 76.74.254.126 Connecting to wordpress.com (wordpress.com)|72.233.104.124|:80... connected. HTTP request sent, awaiting response... HTTP/1.1 200 OK Server: nginx Date: Fri, 17 Jun 2011 15:06:47 GMT Content-Type: text/html; charset=UTF-8 Connection: close Vary: Accept-Encoding Last-Modified: Fri, 17 Jun 2011 15:04:57 +0000 Cache-Control: max-age=190, must-revalidate Vary: Cookie X-hacker: If you're reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header. X-Pingback: http://wordpress.com/xmlrpc.php Link: <http://wp.me/1>; rel=shortlink X-nananana: Batcache Content-Encoding: gzip Length: unspecified [text/html] 

В кодировке содержимого четко указано gzip, однако для linux.about.com (в настоящее время),

 wget -S --header="accept-encoding: gzip" linux.about.com --2011-06-17 16:12:55-- http://linux.about.com/ Resolving linux.about.com (linux.about.com)... 207.241.148.80 Connecting to linux.about.com (linux.about.com)|207.241.148.80|:80... connected. HTTP request sent, awaiting response... HTTP/1.1 200 OK Date: Fri, 17 Jun 2011 15:12:56 GMT Server: Apache Set-Cookie: TMog=B6HFCs2H20kA1I4N; domain=.about.com; path=/; expires=Sat, 22-Sep-12 14:19:35 GMT Set-Cookie: Mint=B6HFCs2H20kA1I4N; domain=.about.com; path=/ Set-Cookie: zBT=1; domain=.about.com; path=/ Vary: * PRAGMA: no-cache P3P: CP="IDC DSP COR DEVa TAIa OUR BUS UNI" Cache-Control: max-age=-3600 Expires: Fri, 17 Jun 2011 14:12:56 GMT Connection: close Content-Type: text/html Length: unspecified [text/html] 

Он возвращает текст / html.

Поскольку у некоторых старых браузеров все еще есть проблемы с кодированным gzip-контентом, многие сайты только активируют его на основе идентификации браузера. Они часто отключают его по умолчанию и только поворачивают его, когда знают, что браузер может его поддерживать, и обычно они не включают wget в этот список. Это означает, что wget никогда не возвращает gzip-контент, даже если сайт выглядит так для вашего браузера.

простая команда для получения html-страницы и сжатия ее или получения любого файла и сжатия.

 $ wget -qO - <url> | gzip -c > file_name.gz 

для получения дополнительной информации о опции. используйте команду man.

  • Как объединить опции '-i file' и '-O filename' из wget?
  • Почему не работает wget url / mediafile.ext> medafile2.ext?
  • Как отобразить все URL-адреса в цепочке перенаправления?
  • Проблема с загрузкой большого файла из Интернета
  • Как загрузить файл на веб-странице, которая не является прямой ссылкой, но javascript click.submit ()?
  • Как загрузить все html-файлы из каталога URL с помощью wget?
  • Отфильтруйте гиперссылки с веб-страницы и загрузите все, что соответствует определенному шаблону
  • Проблема с рекурсивной загрузкой с помощью wget
  • Почему команда curl использует URL-адреса с параметрами ввода
  • Сохраните команду ../../../ в команде wget
  • bash scripting - wget или curl-файл с действием на основе состояния 200 или нет
  • Interesting Posts

    Как вы настраиваете функцию «компиляции парсера», чтобы помочь с редактированием простых скриптов в Элвисе?

    Команда «да»

    сетевое соединение на кали

    Процессорный вентилятор очень быстрый даже с 0% CPU

    Поиск подстроки в файлах в подкаталогах с помощью одной встроенной команды?

    Заполнение вкладки Bash расширяет «~» на «/ home / ___», когда это не было

    Почему rc.local не работает полностью

    Неполное обновление на фабрике делает файловую систему btrfs непригодной?

    Возможно ли создать сжатый ленточный архив в папке из другого каталога?

    Печать разницы между соседними значениями в столбце с новым столбцом

    Сортировка данных в порядке убывания первого столбца, для равных значений, используйте второй столбец в порядке возрастания

    Не удалось запустить сервер mysql

    Что привело бы к тому, что мой видеодрайвер перестанет работать после каждого обновления?

    Почему существует множество систем BSD, но только одно ядро ​​Linux?

    установлен Arch Linux, но не может загружаться

    Linux и Unix - лучшая ОС в мире.