Otro sitio web está reflejado y se ubica por encima de mi sitio en los resultados de búsqueda

55

Hay un sitio de mala reputación conocido como thedirty que ha reflejado completamente mi sitio y ahora tiene enlaces que aparecen en Google en el lugar número 1 usando mi contenido. Revisé mis archivos de registro y noté que este sitio ha estado rastreando el mío durante algún tiempo, y también tiene 10,000 enlaces desde su sitio al mío.

He bloqueado el acceso de los usuarios que se refiere desde este sitio y ya los informé como spam web a Google. También rechacé el dominio.

¿Cómo están obteniendo los mejores enlaces en Google (incluso superando a los míos) para tácticas tan nefastas? ¿Cuáles son los pasos para eliminar por completo un problema como este?

ACTUALIZACIÓN 28/08/2014:

Pensé en proporcionar una actualización sobre esto ya que ahora tengo más información. Entonces thedirty apuntó sus subdominios a mi ip, lo que tuvo el efecto de hacer que sus subdominios se parecieran a mi sitio web.

Durante un par de días esto no importó mucho porque al usar htaccess, redirigí todos los HOSTS no de mi dominio, de vuelta a mi dominio, lo que básicamente significaba que estaba obteniendo sus enlaces de tráfico de subdominios en Google. Después de un par de días, thedirty cambió sus subdominios para volver a su sitio web, de modo que ya no me beneficie de esto.

Entonces, el punto principal fue que usaron mi contenido para obtener los primeros puestos en Google, y ahora están apuntando esos enlaces a su sitio web para atraer más tráfico al suyo.

Es una táctica sucia de un sitio web sucio. Mi esperanza es que Google castigue tal comportamiento.

Marlboro Goodluck
fuente
3
Edité la parte donde cuestionas su motivo, ya que está fuera de tema aquí. Pero buena pregunta de lo contrario.
John Conde
1
La clonación de sitios web parece ser un nuevo truco, muchos sitios web están siendo mal utilizados en este momento. Hay noticias en Heise (alemán) sobre este tema. La solución habitual (aparte de informar el sitio falso) parece ser proporcionar contenido especial a las direcciones IP de los rastreadores, por lo que, por ejemplo, mostrarán un enlace a su sitio real.
martinstoeckli
1
Otra preocupación para el futuro, ahora que Google ha adoptado una postura tan dura contra el spam web, es que los competidores publicarán mi contenido a propósito en sitios de mala reputación para dañar mi reputación. O publicaré blogs con aspecto de spam que apunten a mi sitio sin mi conocimiento.
Marlboro Goodluck
3
@Jarrod Roberson: en realidad, nadie sabe acerca de una demanda judicial, ¡¿pero cuánta solución técnica ?!
machineaddict
1
@JarrodRoberson Sin embargo, es un problema que enfrentan exclusivamente los webmasters y, por lo tanto, es muy temático para este sitio porque al preguntarlo aquí obtendrá respuestas de personas que también han tenido que lidiar con él. También parece que la gente ha presentado varias soluciones técnicas junto con las legales.
gracias

Respuestas:

45

Si solo están reflejando su sitio al alimentarlo a través de un script proxy o regurgitar su verbatum HTML, puede agregar URL canónicas a sus páginas. Esto le permitirá a Google saber que su contenido es la fuente original y mostrar su URL en los resultados de búsqueda, no en la de ellos.

Envíe una solicitud DMCA a Google. Son un poco lentos con ellos, pero finalmente eliminarán esas páginas de su índice.

Desautorizar los enlaces es un movimiento inteligente.

Sin embargo, no sé si bloquear a los usuarios es útil. Quizás poner un mensaje en la parte superior de sus páginas para informarles que usted es el sitio original y que el otro es un fraude podría ser una mejor solución.

John Conde
fuente
2
Las URL canónicas no siempre ayudan. La secuencia de comandos que reflejó mi sitio cambió las URL canónicas para apuntar también al sitio falso; entonces no tenía sentido.
CaptainCodeman
28

Puede presentar una queja ante la DMCA y, si se encuentra en los EE. UU., Puede presentar una demanda por derecho de autor civil.

Aquí hay un enlace a una respuesta breve que explica cómo la queja de DMCA puede ayudar a cualquiera:

¿Tiene que estar en los Estados Unidos para presentar una queja de DMCA?

... y otro explica más ...

¿Cuánto de su contenido necesita ser copiado antes de poder presentar una queja DMCA?

Si se encuentra en los Estados Unidos, puede contratar a un abogado que esté familiarizado con los problemas de derechos de autor y hacer que envíen una carta de cese y desistimiento. Déles 10 días (días reales y no días hábiles, aunque los días hábiles también estarían bien) para eliminar el contenido. Desea capturar instantáneas del sitio ofensivo para su evidencia y también instantáneas de su sitio. Si verifica si se ha eliminado una página, verifique el sitio directamente y no busque resultados.

Si la página no se ha eliminado dentro del período de tiempo, puede presentar un caso civil federal que tomará al menos $ 10,000 para defender y apenas le costará nada. Estarás en el asiento del conductor. Es probable que se pueda llegar a un acuerdo por al menos $ 10,000 y posiblemente más. También puede recuperar sus costos. Lo importante es ofrecer una opción sin costo para rectificar el problema, de ahí la carta de cese y desistimiento. Después de eso, puede presentar un caso sin responsabilidad para el acusado.

Otra nota es que tendrá que demostrar daños si va a la corte. La pérdida del tráfico de búsqueda es daños. Aquí trabajará con su abogado para recopilar métricas que ilustren la pérdida de tráfico y deberá monetizar el valor de ese tráfico. Por supuesto, puede asumir números más altos aquí incluso con una tasa de conversión del 100%. Por si acaso, estaría recopilando métricas sobre la pérdida de tráfico utilizando Google Analytics y su software de análisis de archivos de registro hoy y en el futuro.

Tenga en cuenta que presentar un caso no es difícil ni muy costoso, especialmente en comparación con los daños que está experimentando ahora y en el futuro. Las infracciones de derechos de autor han disminuido últimamente, pero los pocos que violan los derechos de autor son mucho más audaces en estos días. Necesitamos detener a estas personas y la única forma real es poner un factor de costo en la estrategia comercial que haga que la infracción de derechos de autor no sea rentable.

closetnoc
fuente
2
Todo el problema que estás evitando es que descubrir quién está detrás del sitio es prácticamente imposible. Quiero decir, tendrían que ser idiotas para que sea fácil rastrear el sitio hasta una persona real.
David Mulder
1
@DavidMulder Sin eludir. Un abogado puede citar a las compañías para obtener la información que necesitan. Incluso una carta amable es suficiente. Si no se proporciona la información, entonces el abogado puede exigir una deposición en la corte ante un juez con una pena de prisión si no se presentan, o proporcionar la información solicitada. En los Estados Unidos, no hay forma de esconderse de la ley, civil o de otro tipo. Esto todavía funciona internacionalmente con alguna excepción.
closetnoc
@closetnoc: es posible que la empresa no desee proporcionar la información libremente, o incluso tener la libertad de hacerlo. No hay certeza de que un tribunal emitirá una citación o que el camino permanecerá en su jurisdicción. Puede encontrarse en una batalla legal muy costosa y prolongada con un tercero que quizás ni siquiera sepa el nombre real del delincuente. A juzgar por su respuesta exhaustiva, sin duda es consciente de estos obstáculos, pero tengo que ponerme del lado de David Mulder: creo que está entendiendo lo difícil que es rastrear el sitio hasta un individuo.
Marcks Thomas el
@closetnoc: Sí, excepto que el proveedor de alojamiento no tiene la información correcta. Y el pago probablemente se realizó con una tarjeta de crédito prepaga o alguna otra tarjeta prepaga, una tarjeta de crédito robada, un bitcoin u otro mecanismo de transacción no rastreable. Ah, y el proveedor de hosting podría no estar en los Estados Unidos en primer lugar. Se llama internet, nos guste o no.
David Mulder
@DavidMulder Aprecio lo que estás diciendo. Estoy en el negocio de la seguridad, especialmente en el área de investigación sobre cómo encontrar a los malos. La mayoría de lo que estás hablando sería chino, ruso o polaco. Aún así, hay formas de determinar quiénes son estas personas a través de patrones y demás. Se regalan a sí mismos. Esto es específicamente lo que hago. Tienes que intentarlo. No puede simplemente darse la vuelta. Un buen abogado de Internet conoce a personas como yo y cómo obtener información. Un hilo es todo lo que necesito y generalmente lo obtengo. Pero puede ser un verdadero esfuerzo. Pero ese es el peor de los casos.
closetnoc
27

Puede rastrear su IP (o IP) y devolver contenido totalmente diferente para que reflejen, lo que quiera. De esta forma, obtienes espacio libre para anunciar lo que sea, y puedes usar su posición alta en Google para tu ventaja.

Una vez usé esto para simplemente explicar a los usuarios en el sitio web duplicado que este es el dominio incorrecto. También puede publicar un encabezado de redireccionamiento HTTP simple.

Igor R
fuente
8
De hecho, me parece bastante divertido por alguna razón. +1
Mehrdad
1
probablemente no clonarán encabezados HTTP, pero puede enviarles animaciones de JavaScript y divertidos pancartas de estilo Marquee que griten 'esto es una estafa' y buenos viejos gifs animados: P
Florian Fida
También puede usar metaetiquetas y redireccionamientos de JavaScript, uno de los tres seguramente funcionará. en cualquier caso, esta no es una solución estable y funcionará solo hasta que lo descubran y comiencen a trabajar en su contra. @Mehrdad, supongo que es divertido porque es hacky :)
Igor R
También se me ocurrió que es divertido porque el atacante en realidad está abriendo una vulnerabilidad en sí mismo, al dejar a la víctima en su patio de recreo (atacantes), incluso si puede detenerlo en cualquier momento. lo que hace que el atacante se vea bastante estúpido.
Igor R
Su alta posición en Google está reemplazando la alta posición del sitio web original, por lo que no es realmente "publicidad gratuita".
CaptainCodeman
12

Un poco tarde para ti, pero la mejor idea para proteger tu sitio web (en el futuro) sería esta: https://www.youtube.com/watch?v=I3pNLB3Cq24 (defcon 21, defensa por números) falsificando el código de retorno para que los usuarios verá el contenido pero los bots lo verán

  • tirar el contenido a la basura
  • gatear en círculos
  • para de trabajar

otras ideas posibles: asegúrese de que sus usuarios no vean nada de esto:

  • déjelos guardar GB de información (mientras que solo hay unos pocos kb en su servidor)
  • hacer que los bots inunden su propia memoria con enlaces falsos
  • envíe contenido falso (100% boolsh * t - necesita escribir cosas - como "Obama embarazada", "Spider-Man 5 - el próximo verano", ... para que sus ladrones puedan albergarlo ...)
  • enviar archivos falsos (como 42.zip, si no comprueban el contenido copiado, sus usuarios se divertirán -> las herramientas AV mostrarán que algo está mal -> los usuarios serán p * ss * d ...)
  • permítales esperar más datos (tamaño de archivo = 1-10 MB y enviar cr * p aleatorio con 1 Byte / so menos)

otras ideas:

  • enlaces protegidos por Javascript (antiguo, ¿ya no se usa? pero si permanecen sin cambios, los usuarios se lo enviarán (por un tiempo))
  • basura dinámica (use comentarios o elementos invisibles para que los bots descarguen cosas que los usuarios no pueden ver; los bots buenos no caerán en esto)
  • bloquear direcciones IP que descargan demasiado / demasiado rápido / de manera incorrecta (los bots no se comportan como humanos 1) cada enlace en cada página 2) hay un patrón o un caos total en la forma en que eligen el (los) siguiente (s) enlace (s))
  • use Javascript para redirigir a su servidor si los archivos no están alojados en su servidor (no hay ayuda contra el robo, pero los ladrones deben eliminarlo o sus usuarios no permanecerán en su página; puede codificarlo en diferentes rutinas (como descifrado de contenido) ))
MurksVomOrk
fuente
Tengo mi propio código que todavía necesito para ajustar algunos que bloquean las arañas. ¡Investigaré tus ideas porque ese es el tipo de persona que soy! ;-) Grandes consejos!
closetnoc
44
El problema con el bloqueo de arañas y bots es que probablemente no quieras que todos sean bloqueados. Google es bastante importante, por ejemplo, si desea que las personas puedan encontrar su sitio web. (Y dado que Google tiene su sitio en su caché, un rastreador web en realidad no necesita rastrear su sitio para duplicarlo).
Trly
Si les va a dar algo alternativo deliberadamente, prefiero la respuesta de Igor de hacerlo beneficioso para usted (redirigir / decir que está mal / alojar anuncios) en lugar de contraatacar.
OJFord
2

Esto se llama Google Proxy Hack, y también me pasó a mí.

Lo primero es lo primero:

  • Envíe una queja de DMCA al Web Host. Use este enlace para crear una queja correctamente formada y enviarla al soporte del host o al correo electrónico de abuso. Si el host está en los EE. UU., Debe eliminar el sitio. Incluso si no se encuentran en los Estados Unidos, pueden optar por eliminar el sitio de todos modos. (Eso me pasó una vez.)
  • Utilice la herramienta DMCA de Google para solicitar que se eliminen las URL duplicadas de sus resultados de búsqueda.
  • Utilice el Informe Scraper de Google para informar la falla en el algoritmo de Google.

Sin embargo, esto es fundamentalmente un fracaso por parte de Google. Por todo lo que dicen sobre la clasificación basada en "contenido original de calidad", este es un contraejemplo absurdamente simple que francamente es simplemente vergonzoso.

Afortunadamente, si suficientes personas se quejan de ello, Google finalmente actuará y escribirá las 10 líneas de código necesarias para verificar que un sitio sea un espejo exacto de un sitio previamente establecido.

Además, tenga en cuenta que el uso de URL canónicas no siempre funciona en esta instancia. Muchas de estas secuencias de comandos proxy cambian las URL canónicas para que apunten al sitio espejo, lo que las hace inútiles.

Finalmente, tenga en cuenta que también pueden haber enviado spam a su sitio principal con enlaces basura para dañar su clasificación. (Esto me pasó a mí también).

Si buscas y piensas creativamente, hay algunas formas de defenderte. Realmente no creo que sea una buena idea publicar una lista completa aquí porque eso simplemente facilita la vida de los hackers.

CaptainCodeman
fuente
1

Como otros han mencionado, presentar una queja DMCA y una demanda de derecho civil de derechos de autor pueden ser las mejores opciones.

Para el nuevo contenido que publica, puede considerar notificar sobre las actualizaciones de su sitio en las redes sociales (Twitter, Facebook, etc.) tan pronto como publique. La marca de tiempo registrada allí puede ser un indicador justo que escribió primero en caso de que tenga que demostrarlo. A través de las Herramientas para webmasters de Google, puede aplicar una configuración para que Googlebot rastree su sitio con frecuencia . Suponiendo que los motores de búsqueda populares indexan sus páginas web regularmente (use el operador del sitio, sitio: example.com, para averiguarlo) la fecha en la copia en caché se puede usar como un indicador aproximado de cuándo se publicó el contenido.

También para el nuevo contenido que publica, puede incrustar marcas de agua dentro de las imágenes y colocar comentarios dentro de los archivos JS que indican que usted es el propietario original de esos archivos.

mvark
fuente
Si hay un bot copiando el contenido, simplemente podría incluir información de autoría en la página, por lo que el contenido copiado contendría algo como "Esto fue creado por Foo, todos los derechos reservados", lo que hace un caso realmente claro (podría, por ejemplo, ocultar eso en acróstico, pero al ser un bot, funcionará en texto plano y fortalecerá su caso).
Ángel