Preguntas etiquetadas con web-crawlers

10
¿Cómo logró Google rastrear mis 403 páginas?

Tenía un par de archivos privados en un directorio en la carpeta de mi escuela. Puede ver que los archivos existían yendo a myschool.edu/myusername/myfolder, pero al intentar acceder a los archivos a través de myschool.edu/myusername/myfolder/myfile.html, se produce un error 403. ¡Y sin embargo,...

10
Combina agentes de usuario en robots.txt

¿Pueden los agentes de usuario aparecer juntos, seguidos de sus reglas comunes como en un robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask...

9
Tácticas para lidiar con robots que se portan mal

Tengo un sitio que, por razones regulatorias, no puede indexarse ​​o buscarse automáticamente. Esto significa que debemos mantener alejados a todos los robots y evitar que recorran el sitio. Obviamente hemos tenido un archivo robots.txt que no permite nada desde el principio. Sin embargo, observar...

9
Disqus hilo de migración. Gotchas?

He estado migrando un sitio a un nuevo dominio. El sitio en sí es bastante sencillo (usa Jekyll), y todo ha ido bien, excepto la migración de hilos Disqus. He tenido un éxito parcial : algunos de los hilos han migrado con éxito, pero no todos. He probado el asistente de migración de dominio (que...

8
¿Qué etiqueta meta "robots" tiene preferencia?

Mi esposa trabaja en una escuela secundaria en Alemania. Hace poco noté que es extremadamente difícil encontrar la página de inicio de esa escuela usando Google. Miré el código fuente de la página y creo que he encontrado la razón: hay dos <meta name="robots">etiquetas; uno es <meta...