¿Cómo logró Google rastrear mis 403 páginas?

Tenía un par de archivos privados en un directorio en la carpeta de mi escuela. Puede ver que los archivos existían yendo a myschool.edu/myusername/myfolder, pero al intentar acceder a los archivos a través de myschool.edu/myusername/myfolder/myfile.html, se produce un error 403.

¡Y sin embargo, Google de alguna manera logró tomar el contenido de esos archivos privados y almacenarlos en su caché! ¿Cómo es esto posible? [Desde entonces eliminé esos archivos, así que tengo curiosidad por saber cómo Google logró hacer esto.]

web-crawlers security googlebot grautur
fuente

Esto pertenece a los webmasters

RobertPitt

Respuestas:

La razón más probable es que las páginas no devolverán un encabezado 403.

Puede verificar eso usando la barra de herramientas de desarrollador web en Firefox o Chrome. La herramienta se encuentra en "Información" -> "Ver encabezados de respuesta".

Además, la forma en que creo mis páginas de error es:

Creo una página de error ficticia. Digamos 403.php .
Creo una página de error real. Por ejemplo error403.php .
En la página de error ficticio, pongo el siguiente código: <?php header("Location: /error403.php",TRUE,301); ?>
En mi .htaccess, pongo lo siguiente:

Options -Indexes

ErrorDocument 403 /403.php

Esto agrega todos los redireccionamientos de manera adecuada y me asegura que estoy obteniendo algo de jugo de mis páginas de error.

En realidad, esto puede extenderse de una manera extremadamente genial si su sitio web tiene un motor de búsqueda que utiliza solicitudes GET.

Vergil Penkov
fuente