¿Cómo reconoce Google la fecha de publicación de una publicación?

17

Cuando busco algo en Google, a veces veo la fecha de publicación de la publicación / artículo debajo. También busqué un artículo propio que tengo en mi sitio con Wordpress, y Google también reconoce su fecha de publicación.

Cuando abro la fuente de mi sitio web, no veo ninguna etiqueta especial ni nada que indique la fecha de publicación. Solo está escrito en un div regular, sin nada especial etiquetado que le diga al SE que es la fecha de publicación (también podría tener otras fechas de otras cosas en la página).

Entonces, ¿está codificado en Google el lugar exacto de la fecha de publicación de Wordpress en el árbol DOM, o me falta algo?

Estoy construyendo un nuevo sitio web, con mi propio CMS, y estoy tratando de descubrir cómo implementar el reconocimiento de fecha de publicación.

Can Poyrazoğlu
fuente
2
Ciertamente te falta algo: solo has mirado el HTML, pero también hay encabezados HTTP que dicen cuándo se modificó una página. ¿Qué informan para el enlace permanente de su artículo? Supongo que Google usa eso en combinación con sus propios registros de cuánto ha cambiado la página, pero no tengo evidencia real, de ahí el comentario en lugar de una respuesta.
Peter Taylor
Sí, la mía era una oportunidad "en bruto" .. Voy a estar buscando en elementos no HTML / encabezados y mapa como otros también sugirieron
Can Poyrazoğlu
@ Peter Sin duda, los encabezados HTTP (especialmente el encabezado Última modificación) son una métrica que utilizan los SE. Sin embargo, dudo que desempeñe un papel importante en la determinación de la "fecha de publicación" de un artículo, al menos no lo que Google muestra como la fecha de publicación. (¿Otros SE no parecen mostrar una 'fecha de publicación'?) La fecha de publicación de un artículo probablemente no sea la última fecha de modificación de un documento. La mayoría de las páginas en sitios dinámicos (incluso para publicaciones de WordPress) parecen volver cerca de la fecha / hora actual. En mi opinión, el encabezado Last-Modified se usa principalmente para el almacenamiento en caché.
MrWhite
Creo que tiene algo que ver con el mapa del sitio ..
Can Poyrazoğlu
HTTP modificó por última vez stackoverflow.com/questions/204010/… o algunos metadatos HTML semi-estándar: stackoverflow.com/questions/4575967/… son otras posibilidades, pero no estoy seguro de si Google realmente las usa.
Ciro Santilli 新疆 改造 中心 法轮功 六四 事件

Respuestas:

4

debe pasar por el mapa del sitio xml o la versión de fuente RSS para indexar sus datos de publicación a través de los principales motores de búsqueda como Google, Yahoo y MSN. Genere un mapa del sitio XML para su sitio web y envíelo a las herramientas maestras de la web para su índice.

eThan Hunt
fuente
7

Simplemente tuve el problema de que todas mis páginas principales se mostraban actualizadas hace más de 4 años, a pesar de que Google sabe que eso no es cierto porque las páginas han sido indexadas durante tanto tiempo y cambian sustancialmente de un mes a otro. Después de estar realmente perplejo, luego realmente molesto, luego perplejo nuevamente, finalmente encontré el problema. Nuestros términos legales se publicaban en un div oculto con un "Última actualización: 30 de octubre de 2007" y el div se cargaba en casi todas nuestras páginas. (Porque aparece en el registro) Lo eliminé y ahora supongo que la fecha desaparecerá o se corregirá a algo más razonable.

Una historia de advertencia y una prueba más de que comprueban la semántica del sitio más que los detalles técnicos o su propio historial de indexación.

mmdanziger
fuente
¿Incluye la última fecha de modificación de sus páginas en cualquier otro lugar de la página, o fuente RSS, o mapa del sitio XML?
MrWhite
No lo hago, porque el sitio no es un sitio de noticias y prefiero no enfatizarlo. Idealmente, no habría fecha para mi página de inicio. Además, me imagino que probablemente tomarán el lastmod con un gran grano de sal; sé que lo haría si fuera ellos.
mmdanziger
7

Dudo mucho que la fecha de publicación de una publicación o artículo se base en la <lastmod>entrada en un mapa del sitio XML (como lo han sugerido otros) o en el encabezado HTTP de última modificación para el caso. Un mapa del sitio XML es solo informativo, no autorizado. La última fecha de modificación de un documento probablemente no sea la misma que la fecha de publicación (original) de un artículo. Y, como mencioné en mi comentario en la parte superior de la página, la última fecha de modificación de un documento es probablemente más importante para el almacenamiento en caché y quizás para determinar las tasas de rastreo. El encabezado HTTP de última modificación de páginas generadas dinámicamente a menudo está muy cerca de la fecha / hora real (como lo es para los blogs de WordPress).

Un feed RSS / Atom, por otro lado, contiene esta pepita de información específica. Y, de hecho, en los sitios de Wordpress que no incluyen la fecha de publicación en el contenido, la fecha de publicación todavía aparece en los resultados de búsqueda de Google. Y hasta donde puedo decir, esto coincide con la fecha en el RSS Feed.

EDITAR # 1: Sin embargo, un feed RSS no necesariamente contiene todas las páginas. En la mayoría de los casos sólo debe contener las últimas o más recientemente actualizados páginas. Pero no hay ninguna razón por la que Google deba olvidar lo que ya ha leído, y el hecho de que el contenido de esa página no haya cambiado, tampoco debería cambiar la fecha de la última modificación.

Si no hay una fuente RSS, creo que Google es lo suficientemente inteligente como para analizar el contenido de la página. Particularmente si las fechas se marcan 'semánticamente' con la ayuda de microformatos . Es perfectamente factible que Google vea lo siguiente como la fecha autorizada de publicación de un artículo que contiene:

<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>

Google ciertamente lee microformatos : hCard, hReview, etc.

Solo para agregar, no creo que Google establezca una fecha de publicación a menos que haya podido encontrar algo autorizado que sugiera esto. ¡No va a deducir una 'fecha de publicación' en los datos especulativos, ya que una 'fecha de publicación' incorrecta no es útil para nadie y Google se quedaría con mucho por ella!

Y solo para el registro (si @Tom sugiere lo contrario :) Creo que las publicaciones / artículos deberían tener la fecha de publicación visible. Muchos no lo hacen, y esto puede ser frustrante para el lector, especialmente cuando investiga problemas de tecnología, ¡y encuentra que haber leído la mitad del artículo está desactualizado!

EDITAR # 2: desde entonces he experimentado una molestia similar a la que @mmdanziger detalla en su respuesta. En uno de mis sitios antiguos, tengo el texto del formulario "Sitio actualizado por última vez el 17 de junio de 2012" (no marcado de ninguna manera especial) en la parte superior de cada página (¡escrito en la página con JavaScript!). Google ha recogido esta misma fecha y ahora aparece junto con varias (pero no todas) páginas que aparecen en los SERPS; esta ciertamente no es la fecha de publicación de la página. Parece que Google simplemente está desechando la página para obtener una cadena del formulario "última actualización ( cadena de fechas )" (¡¡después de haber procesado el JavaScript !!). Este sitio en particular no tiene una fuente RSS. El sitio tiene un archivo Sitemap.xml pero las fechas son diferentes.

He notado un comportamiento similar en otros sitios también.

Señor White
fuente
¿Cómo reconoce la fecha correcta de esto? <div class="footer"> <div class="links"> April 24, 2011 | <a href=...Este es el ÚNICO lugar que se refiere a la fecha de publicación de mi publicación, y Google lo encuentra y se muestra correctamente en el resultado de la búsqueda
Can Poyrazoğlu
¿Hay algo específico en el ancla que lo sigue? Por otra parte, puede que no sea así. ¿También tiene una fuente RSS (vinculada a las etiquetas META del documento)?
MrWhite
Estaba buscando la respuesta "¿cómo determina Google la fecha?" ¡Pero noté lo mismo! ¡Google intenta encontrar una cadena de tiempo en la página en lugar del encabezado modificado por última vez o Sitemap.xml <lastmod>! ¡Gracias por confirmar mis pensamientos!
evilReiko
5

Creo que Google usa Sitemap y RSS para reconocer la fecha de publicación. Puede incorporar esta característica en su CMS creando un mapa del sitio xml de acuerdo con los Estándares .

<lastmod>2011-08-18</lastmod>
Vamsi Krishna B
fuente
2

Según Jonh Mueller en Google:

Usamos una variedad de señales para determinar qué fecha mostrar, o si tiene sentido mostrar una; No está vinculado a un atributo específico.

John Mueller - Twitter

Sin embargo, lo más probable es que Google busque fechas en páginas web en los siguientes lugares:

  • A la vista de la página, utilizando el aprendizaje automático
  • Datos estructurados de Schema.org, especialmente si los datos también se pueden encontrar a simple vista en la página
Maximillian Laumeister
fuente
1

Creo que busca de manera inteligente cualquier fecha en la página y cuando está seguro de que es la fecha relevante, la usa.

A veces es un poco difícil, ya que creo que puede tener un impacto negativo en la capacidad de hacer clic en SERP, supongo que puede tener un impacto positivo temporal si es un artículo / publicación reciente, pero estoy bastante seguro de que mis sitios estarían mejor sin él (¡Sin embargo, los buscadores de Google podrían no estar mejor sin él!)

No hay opciones para controlarlo a través de Google, solo con sus propios métodos. Tu también puedes:

  • Reemplace las fechas con imágenes generadas dinámicamente en un intento de evitar que Google lo descubra, pero esto puede conducir a otros problemas, como la alineación visual / visualización de fuentes consistentes / accesibilidad, etc.
  • Elimine todas las fechas de las páginas (esto nuevamente puede ser frustrante para los visitantes / usuarios cuando desean descubrir la edad de una fuente si tiene información relevante).

Por estas razones, simplemente lo ignoraría.

Tom Gullen
fuente
No estoy tratando de eliminar la fecha :) Estoy tratando de agregar la función de fecha a un nuevo sitio que estoy construyendo ..
Can Poyrazoğlu