¿Podría decirme cómo bloquear dichas URL robots.txt
para que Googlebots deje de indexar?
http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q
Mi sitio web fue pirateado, que ahora se recuperó, pero el pirata informático indexó 5000 URL en Google y ahora recibo el error 404 en enlaces generados aleatoriamente, ya que sobre todo comienza con el /+
enlace anterior.
Me preguntaba si hay una forma rápida que no sea eliminar manualmente estas URL de las Herramientas para webmasters de Google.
¿Podemos bloquear esto con las robots.txt
URL que comienzan con el +
signo?
+
(más) en la ruta URL, es solo un carácter como cualquier otro.Respuestas:
Un 404 probablemente sea preferible a bloquear con
robots.txt
si desea que estas URL se eliminen de los motores de búsqueda (es decir, Google). Si bloquea el rastreo, la URL podría seguir indexada. (Tenga en cuenta querobots.txt
principalmente bloquea el rastreo , no la indexación ).Si desea "acelerar" la desindexación de estas URL, entonces quizás podría servir un "410 Gone" en lugar del habitual "404 Not Found". Podría hacer algo como lo siguiente con mod_rewrite (Apache) en su
.htaccess
archivo raíz :fuente
Voy a responder la segunda pregunta.
https://developers.google.com/webmasters/hacked/docs/clean_site
Google declara explícitamente que la eliminación a través de Google Search Console (el nuevo nombre de las herramientas para webmasters) es la más rápida.
Pero también entienden que esto no es factible en algunos casos:
Entonces, si bien puede bloquear estas páginas en robots.txt, no está tomando ninguno de los pasos correctivos explicados por Google.
fuente
Debes hacer lo que quieras. Le indicará al robot que no solicite todas las URL que comiencen con a
+
.fuente
Si realmente desea utilizar robots.txt, esta sería una respuesta simple a su pregunta. También he incluido un enlace a donde puede leer las especificaciones en robots.txt.
Lea sobre las especificaciones de robots.txt
Pero otra alternativa podría ser usar .htaccess para hacer una regla de reescritura (si usa Apache, etc.) para atraparlos y tal vez decirle a Google un mejor código HTTP de retorno o simplemente redirigir el tráfico a otra página.
fuente
*
(asterisco) al final de la ruta URL. Debe eliminarse para una mayor compatibilidad de araña.robots.txt
ya coincide con el prefijo, por lo que/+*
es igual que/+
para los bots que admiten comodines, y para los bots que no admiten comodines, entonces/+*
no coincidirán en absoluto.