Usando rel = canonical con sindicación

21

Trabajo en un sitio que permite la sindicación de contenido (a través de API y volcados de datos). Estamos descubriendo que varios sitios que republican nuestro contenido aparecen más arriba en los resultados de búsqueda de Google, a pesar de que somos el editor original. Esto es frustrante.

Estamos considerando rel=canonical formar parte de nuestros requisitos de atribución. Google dice que es legítimo usarlo en todos los dominios y en escenarios de sindicación.

¿Has hecho esto y Google considera la URL canónica en los rankings de búsqueda? ¿Nos ayudará a reducir ese "spam" de SERP?

Matt Sherman
fuente
1
Lo que estás describiendo no es spam. Son las personas que hacen lo que les pides que hagan: sindicar tu contenido. El spam es publicidad por correo electrónico no solicitado y páginas web creadas con el único propósito de bombardear a las personas con anuncios en lugar de crear algo de valor. Si esos son los tipos de sitios que sindican su contenido, entonces necesita repensar su modelo de distribución, o eso se reflejará mal en su sitio (solo a través de la asociación). Pero el simple hecho de tener una mejor clasificación de búsqueda que la tuya no hace que un sitio sea spam.
Lèse majesté
@ Lèse realmente? estos sitios parecen estar en contravención directa de la regla de "poco o nada de contenido original" establecida por el propio Google google.com/support/webmasters/bin/answer.py?answer=66361
Jeff Atwood
@Jeff: ¿A qué sitios te refieres específicamente? Estoy hablando del acto de usar la sindicación web en sí, que es algo que hacen muchos sitios legítimos. Un sitio de spam no tiene que usar contenido sindicado, y simplemente usar contenido sindicado no hace que un sitio sea un sitio de spam (incluso si logran una mejor clasificación que usted). Caso en cuestión, muchas publicaciones de noticias importantes utilizan contenido sindicado de AP para complementar su propio contenido. ¿Es contenido duplicado? Sí. ¿Pero es spam? No. Y tampoco creo que AP esté promoviendo el spam.
Lèse majesté
@ Las palabras clave de Lèse aquí complementan su propio contenido . Si TODO el contenido se copia, ¿qué valor o interés se está creando exactamente?
Jeff Atwood
1
@Jeff: No está claro por la pregunta de Matt que esos son los sitios a los que se refiere. Simplemente declaró que hay sitios que vuelven a publicar su contenido (que es el propósito de proporcionar una API de distribución) que ocupan un lugar más alto que el contenido original. Eso, para mí, no implica que estos sean (necesariamente) sitios de spam. Pero tal vez mi interpretación de la pregunta es incorrecta.
Lèse majesté

Respuestas:

10

Jeff es 100% correcto en todo lo que dijo.

Otro problema con la solicitud de un sitio de sindicación para usar <link rel="canonical" href="http://example.com/foo">es que le dice a Google que la página de sindicación no debería tener un rango de página y en su http://example.com/foolugar debería obtenerlo todo.

Eso crea dos problemas principales.

  1. La página de sindicación no se mostraría en absoluto en las búsquedas de Google porque no tiene rango de página. El sitio de sindicación no estaría nada contento con esto. Haciendo improbable que estarían dispuestos a hacer el cambio si pudieran.
  2. Es posible que no afecte a su sitio de la manera que desee porque efectivamente no está siendo vinculado desde el sitio de Syndication. Me pregunto cómo manejaría Google esto. Es cierto que permiten que los sitios cruzados sean rel = "canónicos", pero creo que el propósito de esto es para la migración de sitios y para tener múltiples sitios bajo un mismo host con el mismo contenido para tener una página de facto frente a un montón de páginas similares / iguales.
Ben Hoffman
fuente
Esos son algunos buenos puntos. Creo que la sindicación es un área donde hay una razón legítima para que haya contenido duplicado. En este caso, es mejor dejar solo el contenido duplicado y aceptar que esa es la sindicación. Por supuesto, idealmente Google debería dar preferencia a la página original en lugar de las páginas de los socios de distribución. Quizás sea necesario crear una nueva etiqueta que sea algo intermedio rel="canonical"y la <cite>etiqueta HTML5 . De esta forma, los motores de búsqueda pueden saber qué página es la original para contenido duplicado legítimo.
Lèse majesté
confirmado, vea mi respuesta de Matt Cutts a continuación.
Jeff Atwood
14

Mi investigación indicó que requerir un enlace de regreso, y que el enlace NO debe seguirse , fue con mucho el criterio más importante.

Si el sitio "sindicado" no atribuye el contenido con enlaces de regreso al original que son válidos para que los motores de búsqueda lo sigan, los motores de búsqueda tienen mucho más tiempo para rastrear dónde se originó el contenido y deben aplicar contenido complejo "encontrar contenido duplicado en todo el toda la heurística de internet.

No estoy seguro más de lo que es necesario.

Video relacionado de Matt Cutts

http://www.youtube.com/watch?v=x8XdFb6LGtM

Matt dijo que sería una buena idea usar rel = "canonical" para volver a la página donde se originó el artículo, tal como a menudo ha sugerido que los artículos sindicados incluyen enlaces convencionales (es decir, una <a>etiqueta nchor) que apuntan hacia atrás artículo original.

Tenga en cuenta que canónico no es solo golpear rel="canonical"una <a>etiqueta; es más como esto:

<html>
    <head>
         <link rel="canonical" href="http://example.com/foo">
    </head>
...

Por lo tanto, requiere un tipo diferente de trabajo, debe modificar cada encabezado de página. No estoy seguro de que muchos de estos "sindicadores" tengan ese nivel de control frente a un simple enlace (¡ sin nada!) De regreso a la fuente.

Jeff Atwood
fuente
También sugiero leer la entrada del blog de Jeff sobre este tema, Defending Attribution Required - blog.stackoverflow.com/2010/08/defending-attribution-required
Scott Mitchell
@scott tenga en cuenta que originalmente no necesitábamos un enlace seguido, pero lo cambiamos porque a la araña de Google le faltaban cosas que estaban en nuestro volcado de datos que usan algunos de los raspadores ... y un enlace faltante que no se sigue no ayuda a volver a colocarlo en el índice de Google!
Jeff Atwood
@Jeff: En una ligera tangente, una cosa que me ha molestado es que los enlaces en una respuesta de Stackoverflow tienen rel = "nofollow". ¿No deberían los usuarios con un cierto representante obtener el beneficio de no rel = "nofollow" en los enlaces que publican?
Scott Mitchell,
@scott el campo del sitio web en su perfil, en cualquier sitio web de Stack Exchange se ha eliminado el nofollow en 2k rep como cortesía.
Jeff Atwood
1
@ Jeff, estoy hablando de los enlaces en una respuesta de Stackoverflow. Por ejemplo, si hago una vista / fuente en esta misma página, veo que los enlaces en su respuesta (como el de YouTube) tienen rel = "nofollow". Supongo que esto es para disuadir a los spammers, pero al mismo tiempo parece que está perdiendo la oportunidad de mejorar la relevancia de los resultados de búsqueda para otros, sin mencionar que no "da crédito" (a los ojos de Google) a la persona que escribió el artículo / entrada de blog / etc. eso está siendo vinculado a.
Scott Mitchell
2

Agregando otra respuesta porque recibí una respuesta definitiva de Matt Cutts sobre esto:

rel=canonicalfunciona en todos los dominios, pero actúa básicamente como un 301 [redireccionamiento] , por lo que las páginas del sitio de destino irían directamente a su sitio en Google. Cualquier sitio que use su contenido básicamente sería eliminado de los motores de búsqueda.

Como Matt dice, la mejor manera de pensar rel=canonicales como una redirección 301 permanente .

¡Por lo tanto, exigir dominios cruzados rel=canonicalcomo un conjunto de términos de atribución sería como pedirles que le redirijan 301 a usted! Ay. :PAGS

Sabiendo esto, está claro que rel=canonicalestá destinado solo para su uso en sitios sobre los que usted tiene control personal, como cuando mueve dominios y necesita el contenido de un dominio para reemplazar el otro.

Jeff Atwood
fuente