Что такое «статья 2001 года» для блокировки «автоматизированных поисковых программ», на которые ссылается страница wget man?

На странице wget man указано это в разделе параметра --random-wait :

  Some web sites may perform log analysis to identify retrieval programs such as Wget by looking for statistically significant similarities in the time between requests. [...] A 2001 article in a publication devoted to development on a popular consumer platform provided code to perform this analysis on the fly. Its author suggested blocking at the class C address level to ensure automated retrieval programs were blocked despite changing DHCP-supplied addresses. 

Я хочу получить копию этой статьи для чтения и попробовал много поисков в Интернете, чтобы определить статью. Тем не менее, все, что я могу найти с этими поисками, – это страница man для wget размещенная на разных сайтах; и некоторые другие исследовательские работы, не имеющие отношения к этой теме.

Кто-нибудь знает, к какой статье относятся, и где я могу получить копию?

2 Solutions collect form web for “Что такое «статья 2001 года» для блокировки «автоматизированных поисковых программ», на которые ссылается страница wget man?”

Несмотря на то, что не прямой ответ, git blame и git log показывают, что этот раздел был введен в commit 2c41d783 коммиттером , называемым hniksic , который оказывается Hrvoje Niksic. Его e-mail-адрес можно найти в файле ChangeLog wget (я не буду публиковать его здесь по очевидным причинам). Я предлагаю спросить его прямо, так как он может быть лучшим, чтобы дать более адекватный ответ. В то время как вы можете рассмотреть вопрос о том, не возражает ли он соответствующим образом обновлять справочную страницу. 😉

Я думаю, что это может быть эта статья:

Создание значимых данных из веб-журналов с использованием базы SAS

В параграфе обсуждается блокировка диапазонов класса C:

После того как IP-адрес будет разделен на его компоненты, фильтрация диапазонов IP-адресов проста. Фильтр класса B выполняется против первых двух октетов, например 168.126.xx.xx. Это переменная Onetwo в приведенном выше примере кода. Диапазоны класса C чаще используются, поскольку они нацелены на целые серверы и используют три из четырех октетов, например 168.126.56.xx. В приведенном выше примере кода это поле Three указывает, что Usrhost является значением TCP / IP-адреса веб-журнала.

И одно упоминание wget в блокировке на основе пользовательского агента:

Наш предпочтительный метод идентификации идентификатора пользовательского агента использует функцию сопоставления шаблонов индекса. Например:

 if index(lowcase(agentstr), 'keynote') or index(lowcase(agentstr), 'sureseeker') or index(lowcase(agentstr), 'wget') or 

Это был пятый результат в Googling для «log analysis wget» за 2001 год .

  • bash не может найти команду mvn после установки
  • Почему не работает wget url / mediafile.ext> medafile2.ext?
  • Как объединить опции '-i file' и '-O filename' из wget?
  • Как быстро загрузить тысячи файлов?
  • wget использует адрес ipv6 и занимает слишком много времени, чтобы завершить
  • как wget файл github
  • Как получить размер (deb) файла из ссылки для загрузки / URL?
  • Возможно ли объединить --span-hosts с --no-parent в wget?
  • Как объединить wget, сортировать и сохранять в новое имя файла?
  • wget на лету, чтобы извлечь определенную информацию из файла, не загружая весь файл
  • WGET Продолжить без --no-check-certificate
  • Interesting Posts

    Как коррумпировать файл архива контролируемым образом?

    Код Perl для ссылки на несколько файлов одного и того же расширения (.xml)

    Синтаксическая ошибка в скрипте bash, который вызывает find

    Можно ли использовать переменные в скобках count в Bash?

    Использование и выход iostat

    Сценарий Bash не конвертирует переменные

    Файл с разрешениями — S – l —

    Что делать без ограничений и ограничений в контексте csh?

    sed заменяет соответствующую строку, которая не начинается с #

    Как мне получить команду «top» для ее вывода?

    Использование 'sed' для поиска и замены

    Графический доступ к окнам через ssh

    ls – почему родительский каталог меньше его содержимого? Как узнать размер содержимого каталога?

    Как я могу определить, какой IP-адрес используется для подключения к другому компьютеру?

    Как узнать, какая команда имеет самое длинное руководство в моей системе?

    Linux и Unix - лучшая ОС в мире.