El sitio fue pirateado, ¿necesita eliminar todas las URL que comienzan con + de Google, usar robots.txt?

15

¿Podría decirme cómo bloquear dichas URL robots.txtpara que Googlebots deje de indexar?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

Mi sitio web fue pirateado, que ahora se recuperó, pero el pirata informático indexó 5000 URL en Google y ahora recibo el error 404 en enlaces generados aleatoriamente, ya que sobre todo comienza con el /+enlace anterior.

Me preguntaba si hay una forma rápida que no sea eliminar manualmente estas URL de las Herramientas para webmasters de Google.

¿Podemos bloquear esto con las robots.txtURL que comienzan con el +signo?

unor
fuente
2
No hay nada especial sobre +(más) en la ruta URL, es solo un carácter como cualquier otro.
MrWhite
Podrías redirigir Apache (en .htaccess) a un archivo o directorio que robots.txt prohíba el acceso a los robots
Mawg dice que reinstalarás a Monica el
@Mawg ¿Cuál es el punto de hacer eso?
MrWhite el
¿Para mantener fuera a los robots que se portan bien?
Mawg dice que reinstale a Mónica el
2
Independientemente del problema con las URL, es posible que desee leer ¿Cómo trato con un servidor comprometido?
Jonas Schäfer

Respuestas:

30

Mi sitio web fue pirateado, que ahora se recuperó, pero el hacker indexó 5000 URL en Google y ahora recibo el error 404

Un 404 probablemente sea preferible a bloquear con robots.txtsi desea que estas URL se eliminen de los motores de búsqueda (es decir, Google). Si bloquea el rastreo, la URL podría seguir indexada. (Tenga en cuenta que robots.txtprincipalmente bloquea el rastreo , no la indexación ).

Si desea "acelerar" la desindexación de estas URL, entonces quizás podría servir un "410 Gone" en lugar del habitual "404 Not Found". Podría hacer algo como lo siguiente con mod_rewrite (Apache) en su .htaccessarchivo raíz :

RewriteEngine On
RewriteRule ^\+ - [G]
Señor White
fuente
14

Voy a responder la segunda pregunta.

Me preguntaba si hay una manera rápida que no sea eliminar manualmente estas URL de las herramientas para webmasters de Google.

https://developers.google.com/webmasters/hacked/docs/clean_site

Google declara explícitamente que la eliminación a través de Google Search Console (el nuevo nombre de las herramientas para webmasters) es la más rápida.

Si el hacker creó URL completamente nuevas y visibles para el usuario, puede eliminar estas páginas más rápidamente de los resultados de búsqueda de Google utilizando la función Eliminar URL en Search Console. Este es un paso completamente opcional. Si simplemente elimina las páginas y luego configura su servidor para que devuelva un código de estado 404, las páginas se caerán naturalmente del índice de Google con el tiempo.

Pero también entienden que esto no es factible en algunos casos:

La decisión de usar la eliminación de URL probablemente dependerá de la cantidad de páginas nuevas no deseadas creadas (demasiadas páginas pueden ser engorrosas para incluir en Eliminar URL), así como del daño potencial que estas páginas podrían causar a los usuarios. Para evitar que las páginas enviadas a través de la eliminación de URL aparezcan en los resultados de búsqueda, asegúrese de que las páginas también estén configuradas para devolver una respuesta de Archivo 404 no encontrado para las URL no deseadas / eliminadas.

Entonces, si bien puede bloquear estas páginas en robots.txt, no está tomando ninguno de los pasos correctivos explicados por Google.

pastepotpete
fuente
4
User-Agent: *  
Disallow: /+

Debes hacer lo que quieras. Le indicará al robot que no solicite todas las URL que comiencen con a +.

Sven
fuente
2

Si realmente desea utilizar robots.txt, esta sería una respuesta simple a su pregunta. También he incluido un enlace a donde puede leer las especificaciones en robots.txt.

User-agent: *
Disallow: /+

Lea sobre las especificaciones de robots.txt

Pero otra alternativa podría ser usar .htaccess para hacer una regla de reescritura (si usa Apache, etc.) para atraparlos y tal vez decirle a Google un mejor código HTTP de retorno o simplemente redirigir el tráfico a otra página.

davidbl
fuente
2
No es necesario el *(asterisco) al final de la ruta URL. Debe eliminarse para una mayor compatibilidad de araña. robots.txtya coincide con el prefijo, por lo que /+*es igual que /+para los bots que admiten comodines, y para los bots que no admiten comodines, entonces /+*no coincidirán en absoluto.
MrWhite
Tienes razón, acabo de escribir eso basado en su pregunta sobre Googlebot. Lo he editado para reflejar una mejor compatibilidad contra múltiples bots.
davidbl