¿Puede Googlebot rastrear o extraer URL / URI de sitios de índice de Apache / índice de fantasía? [cerrado]

0

Eso es todo, eso es todo lo que quiero saber con esto. - Hice una búsqueda en Google y ni siquiera menciona tales situaciones (sitios web de rastreo con índice Apache / diseño de índice elegante); pero sé que puedo enviar una araña a un sitio y encontrar todo tipo de cosas que no están vinculadas, así que ¿puede Googlebot hacer lo mismo con sitios como el mío [insurgent.info]?

Y Treehugger Cymru
fuente

Respuestas:

2

¿Puede Googlebot rastrear o extraer URL / URI de los sitios de índice de Apache index / fancy index?

Si.

Hice una búsqueda en Google y ni siquiera menciona tales situaciones (sitios web de rastreo con diseño de índice de Apache / índice de fantasía).

Probable porque realmente no hay nada notable que mencionar. =)

La imposibilidad de analizar parte o la totalidad de una página generalmente solo surge con JavaScript, ya que, excluyendo Google, la mayoría de los rastreadores web no ejecutan código JavaScript. Apache devuelve índices (incluso las versiones sofisticadas) como páginas HTML simples (sin JavaScript).

Es probable que haya una conversación sobre la optimización de motores de búsqueda con sitios de solo índice, pero eso es probablemente todo. Dicho esto, googlear " firefox ftp " devuelve https://ftp.mozilla.org/pub/firefox/releases/ como primer resultado.

Sé que puedo enviar una araña a un sitio y encontrar todo tipo de cosas que no están vinculadas ...

Todo lo que una araña (o lo que tiene) suele acceder está vinculado como una URL / URI en algún lugar del código para las páginas que se analizan (incluso si no es visible para los visitantes "normales").

Las únicas excepciones a esto podrían ser:

  • Enlaces que requieren JavaScript para acceder (por ejemplo, como en la carga diferida), que los bots más avanzados a veces pueden hacer de todos modos, al menos en combinación con navegadores sin cabeza.

  • Enlaces basados ​​en adivinanzas de URL de fuerza bruta (practicadas con mayor frecuencia por scripts / herramientas maliciosas, etc.).

  • Enlaces creados por error por algún error de configuración del servidor o vulnerabilidad de seguridad, que conducen a archivos fuera de la raíz web.

... entonces, ¿puede Googlebot hacer lo mismo con sitios como el mío?

En cuanto a las páginas de índice / índice de Apache, Googlebot puede indexar todo lo que un visitante regular (o incluso inteligente) puede acceder.

Anaksunaman
fuente
Una vez más, asesoramiento de calidad, de alguien con experiencia y conocimiento. - Gracias. También le hice saber a Google que su página de ayuda de Googlebot carece ligeramente de contenido ... =]
Y Treehugger Cymru
Jajaja Siempre me alegro de ayudar! ;-) Con respecto a Google, esperamos que te den buenos consejos y cambien las cosas. =)
Anaksunaman