La wget
página man indica esto, en la sección para el --random-wait
parámetro:
Some web sites may perform log analysis to identify retrieval
programs such as Wget by looking for statistically significant
similarities in the time between requests. [...]
A 2001 article in a publication devoted to development on a popular
consumer platform provided code to perform this analysis on the
fly. Its author suggested blocking at the class C address level to
ensure automated retrieval programs were blocked despite changing
DHCP-supplied addresses.
Quiero obtener una copia de este artículo para leer, y he intentado muchas búsquedas en Internet para determinar el artículo. Sin embargo, todo lo que puedo encontrar con estas búsquedas es la página de manual wget
alojada en diferentes sitios web; y algunos otros trabajos de investigación que no tienen ninguna relación con este tema.
¿Alguien sabe a qué artículo se hace referencia y dónde puedo obtener una copia?
wget
man
documentation
usuario2064000
fuente
fuente
Respuestas:
Aunque no es una respuesta directa,
git blame
ygit log
revelar que esta sección fue introducida en commit 2c41d783 por un committer llamadohniksic
, que resulta ser Hrvoje Niksic. Su dirección de correo electrónico se puede encontrar en elChangeLog
archivo de wget (no la publicaré aquí por las razones obvias). Sugeriría preguntarle directamente, ya que podría ser el mejor para dar una respuesta más adecuada. Mientras lo hace, podría considerar preguntarle si le importaría actualizar la página de manual en consecuencia. ;)fuente
Creo que podría ser este artículo:
Crear datos significativos a partir de registros web utilizando SAS base
Hay un párrafo que discute el bloqueo de los rangos de clase C:
Y una mención
wget
en el agente de bloqueo basado en cadena de usuario:Fue el quinto resultado en Google para "wget de análisis de registro" para el año 2001 .
fuente