Использование wget, Какая правильная команда для получения gzip-версии вместо фактического HTML

Я наткнулся на этот сайт, на котором говорят об этом.

Таким образом, при загрузке всего веб-сайта, используя gzipped-версию, какая правильная команда?

Я проверил эту команду, но я не знаю, действительно ли wget получает версию gzipped:

wget --header="accept-encoding: gzip" -m -Dlinux.about.com -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG,js,rss,xml,feed,.tar.gz,.zip,rar,.rar,.php,.txt -t 1 http://linux.about.com/ 

2 Solutions collect form web for “Использование wget, Какая правильная команда для получения gzip-версии вместо фактического HTML”

Если вы запрашиваете gzip'ed-контент (с использованием правильного заголовка accept-encoding: gzip), то я понимаю, что wget не может затем прочитать содержимое. Таким образом, вы получите единый, gzip-файл на диске, для первой страницы, которую вы нажмете, но другого контента нет.

т.е. вы не можете использовать wget для запроса содержимого gzipped и для повторного рассмотрения всего сайта одновременно.

Я думаю, что есть патч, который позволяет wget поддерживать эту функцию, но это не входит в стандартную версию дистрибутива.

Если вы включаете флаг -S, вы можете указать, отвечает ли веб-сервер правильному типу контента. Например,

 wget -S --header="accept-encoding: gzip" wordpress.com --2011-06-17 16:06:46-- http://wordpress.com/ Resolving wordpress.com (wordpress.com)... 72.233.104.124, 74.200.247.60, 76.74.254.126 Connecting to wordpress.com (wordpress.com)|72.233.104.124|:80... connected. HTTP request sent, awaiting response... HTTP/1.1 200 OK Server: nginx Date: Fri, 17 Jun 2011 15:06:47 GMT Content-Type: text/html; charset=UTF-8 Connection: close Vary: Accept-Encoding Last-Modified: Fri, 17 Jun 2011 15:04:57 +0000 Cache-Control: max-age=190, must-revalidate Vary: Cookie X-hacker: If you're reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header. X-Pingback: http://wordpress.com/xmlrpc.php Link: <http://wp.me/1>; rel=shortlink X-nananana: Batcache Content-Encoding: gzip Length: unspecified [text/html] 

В кодировке содержимого четко указано gzip, однако для linux.about.com (в настоящее время),

 wget -S --header="accept-encoding: gzip" linux.about.com --2011-06-17 16:12:55-- http://linux.about.com/ Resolving linux.about.com (linux.about.com)... 207.241.148.80 Connecting to linux.about.com (linux.about.com)|207.241.148.80|:80... connected. HTTP request sent, awaiting response... HTTP/1.1 200 OK Date: Fri, 17 Jun 2011 15:12:56 GMT Server: Apache Set-Cookie: TMog=B6HFCs2H20kA1I4N; domain=.about.com; path=/; expires=Sat, 22-Sep-12 14:19:35 GMT Set-Cookie: Mint=B6HFCs2H20kA1I4N; domain=.about.com; path=/ Set-Cookie: zBT=1; domain=.about.com; path=/ Vary: * PRAGMA: no-cache P3P: CP="IDC DSP COR DEVa TAIa OUR BUS UNI" Cache-Control: max-age=-3600 Expires: Fri, 17 Jun 2011 14:12:56 GMT Connection: close Content-Type: text/html Length: unspecified [text/html] 

Он возвращает текст / html.

Поскольку у некоторых старых браузеров все еще есть проблемы с кодированным gzip-контентом, многие сайты только активируют его на основе идентификации браузера. Они часто отключают его по умолчанию и только поворачивают его, когда знают, что браузер может его поддерживать, и обычно они не включают wget в этот список. Это означает, что wget никогда не возвращает gzip-контент, даже если сайт выглядит так для вашего браузера.

простая команда для получения html-страницы и сжатия ее или получения любого файла и сжатия.

 $ wget -qO - <url> | gzip -c > file_name.gz 

для получения дополнительной информации о опции. используйте команду man.

  • Wget не загружает изображения в рекурсивную загрузку
  • Как загрузить pdf-файлы, на которые ссылаются страницы одного или двух уровней внутри семени
  • Резюме не удалось загрузить с помощью инструмента командной строки Linux
  • Загрузка с динамически изменяющихся URL-адресов через скрипт
  • wget рекурсивный только для файлов, которые передают регулярное выражение
  • wget на лету, чтобы извлечь определенную информацию из файла, не загружая весь файл
  • Как загрузить папку с диска Google с помощью терминала?
  • Ошибка Wget TLS 1.2
  • Может ли wget * печатать * URL-адреса зависимостей страниц?
  • Wget, отменить повторную попытку после сбоя или таймаута
  • Как найти реальный URL для скачивания
  • Interesting Posts

    Как интерпретировать диапазоны символов в файлах charmap?

    Как отключить kdeconnectd в OpenSUSE?

    Невозможно получить доступ к / (авто) -монтированной SD-карте в Fedora 28

    Расширять функциональность таких команд, как перезагрузка, чтобы зафиксировать причину

    XRANDR показывает два входа вместо 1

    не удается создать стандартное разрешение файла

    acpi_video0 яркость не влияет на экран

    Обнаружение потока ядра на ядрах до 3.0

    Найти файлы в каталоге с парными именами

    Свяжите два интернет-соединения различного качества

    Загрузочный журнал для Arch Linux

    Создание исполняемого файла Linux с помощью Mono с помощью mkbundle

    Сортировка файлов в каталоге рекурсивно на основе последней измененной даты

    Предоставление одному пользователю доступа к папкам нескольких пользователей, но ограничение этих пользователей в их собственном домашнем каталоге

    бенчмаркинг ftp в 3-х методах виртуализации

    Linux и Unix - лучшая ОС в мире.