Mi blog de WordPress está completamente clonado. Ese sitio de clonación se está actualizando en tiempo real con mi blog. Me sorprende que alguien realmente pueda hacer eso.
¿Qué debo hacer para detener el impacto perjudicial en mi ranking en los motores de búsqueda? ¿Hay alguna forma de decirle a Google que no indexe ese sitio?
wordpress
scraper-sites
Tanvir Hasan
fuente
fuente
Respuestas:
Simplemente están cargando su sitio a través de un script del lado del servidor. Todo lo que necesita hacer es bloquear la dirección IP de su servidor a través de .htaccess. Simplemente abra los registros de acceso de su servidor, abra la página clonada en su sitio, luego vea su registro para la nueva entrada y tendrá su dirección IP.
Tampoco estaría de más enviar una solicitud DMCA a Google, pero esto no será realmente necesario ya que ese contenido desaparecerá instantáneamente una vez que bloquee su dirección IP.
fuente
(Además de la respuesta de @ John.)
Es curioso que, si bien parecen haber clonado todo (incluidos los mapas de sitio XML * 1 ), no han clonado el archivo robots.txt. De hecho, el archivo robots.txt en ese sitio bloquea activamente el rastreo de todo. Por lo tanto, no parece haber nada que hacer a este respecto. Hacer una búsqueda en el sitio en ese dominio devuelve solo el dominio simple y un aviso que indica que está bloqueado por robots.txt.
(¿Tienes curiosidad por saber cuál sería su intención al hacer esto? ¿Podrías suponer que cometieron un error con robots.txt, y tal vez sea así, pero esto me parece más una excepción deliberada?)
Además, aunque sus mapas de sitio XML están clonados, no están actualizando las URL en ellos (como lo están haciendo en las páginas principales del sitio), por lo que todavía están apuntando hacia su sitio.* 1 Con respecto a los mapas de sitio XML. En su sitio, "sitemap.xml" es en realidad una redirección a "sitemap_index.xml" y el sitio clonado realmente ha clonado la redirección ... ¡que redirige a su sitio! (Seguramente un error de su parte). "Sitemap_index.xml" es solo un índice, que enlaza con otros 4 mapas de sitio. Si alguno de estos mapas de sitio reales se solicita directamente en el sitio clonado, se clonará correctamente y se actualizarán las URL. Sin embargo, habría dicho que es poco probable que estos mapas de sitio se encuentren en el sitio clonado debido a la redirección inicial de "sitemap.xml". (?) Aunque si enviaran "sitemap_index.xml" directamente, eso obviamente evitaría la redirección.
fuente
Si el sitio produce vínculos de retroceso hacia usted, es importante utilizar la herramienta Google Disavow; de lo contrario, el algoritmo funcionará en su contra, independientemente.
https://www.google.com/webmasters/tools/disavow-links-main
cree un archivo .txt y agregue:
luego cárguelo a Google a través de las Herramientas para webmasters de Google.
Estos son exactamente los pasos que tomaría para resolver este problema. Sé que muchos webmasters se enfrentan a este problema. He tenido este problema antes y no parece haber una respuesta directa en Google (irónicamente) (por eso quiero ayudar). Matt Cutts es el tipo al que se supone que debes escuchar sobre estos problemas, pero escucharlo es como tratar de ganar una partida de ajedrez contra una supercomputadora dentro de una casa en llamas (no se puede encontrar ayuda).
Los atajos:
Mi primera respuesta fue desautorizar el dominio, pero olvidé mencionar que debes desautorizar:
(Google los cuenta como dos dominios separados).
fuente