¿Cuál es el "artículo 2001" para bloquear los "programas de recuperación automatizados" a los que se refiere la página de manual de wget?

11

La wgetpágina man indica esto, en la sección para el --random-waitparámetro:

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

Quiero obtener una copia de este artículo para leer, y he intentado muchas búsquedas en Internet para determinar el artículo. Sin embargo, todo lo que puedo encontrar con estas búsquedas es la página de manual wgetalojada en diferentes sitios web; y algunos otros trabajos de investigación que no tienen ninguna relación con este tema.

¿Alguien sabe a qué artículo se hace referencia y dónde puedo obtener una copia?

usuario2064000
fuente
Estaba buscando en la lista de correo de wget y encontré esto: lists.gnu.org/archive/html/bug-wget/2015-05/msg00029.html
7171u

Respuestas:

15

Aunque no es una respuesta directa, git blamey git logrevelar que esta sección fue introducida en commit 2c41d783 por un committer llamado hniksic, que resulta ser Hrvoje Niksic. Su dirección de correo electrónico se puede encontrar en el ChangeLogarchivo de wget (no la publicaré aquí por las razones obvias). Sugeriría preguntarle directamente, ya que podría ser el mejor para dar una respuesta más adecuada. Mientras lo hace, podría considerar preguntarle si le importaría actualizar la página de manual en consecuencia. ;)

Andreas Wiese
fuente
4

Creo que podría ser este artículo:

Crear datos significativos a partir de registros web utilizando SAS base

Hay un párrafo que discute el bloqueo de los rangos de clase C:

Una vez que la dirección IP se separa en sus componentes, el filtrado de rangos de direcciones IP es simple. Se realiza un filtro de clase B contra los dos primeros octetos, por ejemplo, 168.126.xx.xx. Esta es la variable Onetwo en el ejemplo de código anterior. Los rangos de clase C se usan más comúnmente ya que se dirigen a servidores completos y usan tres de los cuatro octetos, por ejemplo, 168.126.56.xx. En el ejemplo de código anterior, este es el campo Tres dado que Usrhost es el valor de la dirección TCP / IP del registro web.

Y una mención wgeten el agente de bloqueo basado en cadena de usuario:

Nuestro método preferido para la identificación de cadenas de agente de usuario utiliza la función de coincidencia de patrones de índice. Por ejemplo:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

Fue el quinto resultado en Google para "wget ​​de análisis de registro" para el año 2001 .

muru
fuente