¿Puede Googlebot rastrear o extraer URL / URI de los sitios de índice de Apache index / fancy index?
Si.
Hice una búsqueda en Google y ni siquiera menciona tales situaciones (sitios web de rastreo con diseño de índice de Apache / índice de fantasía).
Probable porque realmente no hay nada notable que mencionar. =)
La imposibilidad de analizar parte o la totalidad de una página generalmente solo surge con JavaScript, ya que, excluyendo Google, la mayoría de los rastreadores web no ejecutan código JavaScript. Apache devuelve índices (incluso las versiones sofisticadas) como páginas HTML simples (sin JavaScript).
Es probable que haya una conversación sobre la optimización de motores de búsqueda con sitios de solo índice, pero eso es probablemente todo. Dicho esto, googlear " firefox ftp " devuelve https://ftp.mozilla.org/pub/firefox/releases/ como primer resultado.
Sé que puedo enviar una araña a un sitio y encontrar todo tipo de cosas que no están vinculadas ...
Todo lo que una araña (o lo que tiene) suele acceder está vinculado como una URL / URI en algún lugar del código para las páginas que se analizan (incluso si no es visible para los visitantes "normales").
Las únicas excepciones a esto podrían ser:
Enlaces que requieren JavaScript para acceder (por ejemplo, como en la carga diferida), que los bots más avanzados a veces pueden hacer de todos modos, al menos en combinación con navegadores sin cabeza.
Enlaces basados en adivinanzas de URL de fuerza bruta (practicadas con mayor frecuencia por scripts / herramientas maliciosas, etc.).
Enlaces creados por error por algún error de configuración del servidor o vulnerabilidad de seguridad, que conducen a archivos fuera de la raíz web.
... entonces, ¿puede Googlebot hacer lo mismo con sitios como el mío?
En cuanto a las páginas de índice / índice de Apache, Googlebot puede indexar todo lo que un visitante regular (o incluso inteligente) puede acceder.