Tenía un par de archivos privados en un directorio en la carpeta de mi escuela. Puede ver que los archivos existían yendo a myschool.edu/myusername/myfolder, pero al intentar acceder a los archivos a través de myschool.edu/myusername/myfolder/myfile.html, se produce un error 403.
¡Y sin embargo, Google de alguna manera logró tomar el contenido de esos archivos privados y almacenarlos en su caché! ¿Cómo es esto posible? [Desde entonces eliminé esos archivos, así que tengo curiosidad por saber cómo Google logró hacer esto.]
web-crawlers
security
googlebot
grautur
fuente
fuente
Respuestas:
La razón más probable es que las páginas no devolverán un encabezado 403.
Puede verificar eso usando la barra de herramientas de desarrollador web en Firefox o Chrome. La herramienta se encuentra en "Información" -> "Ver encabezados de respuesta".
Además, la forma en que creo mis páginas de error es:
<?php header("Location: /error403.php",TRUE,301); ?>
En mi .htaccess, pongo lo siguiente:
Options -Indexes
ErrorDocument 403 /403.php
Esto agrega todos los redireccionamientos de manera adecuada y me asegura que estoy obteniendo algo de jugo de mis páginas de error.
En realidad, esto puede extenderse de una manera extremadamente genial si su sitio web tiene un motor de búsqueda que utiliza solicitudes GET.
fuente