Cuando busco algo en Google, a veces veo la fecha de publicación de la publicación / artículo debajo. También busqué un artículo propio que tengo en mi sitio con Wordpress, y Google también reconoce su fecha de publicación.
Cuando abro la fuente de mi sitio web, no veo ninguna etiqueta especial ni nada que indique la fecha de publicación. Solo está escrito en un div regular, sin nada especial etiquetado que le diga al SE que es la fecha de publicación (también podría tener otras fechas de otras cosas en la página).
Entonces, ¿está codificado en Google el lugar exacto de la fecha de publicación de Wordpress en el árbol DOM, o me falta algo?
Estoy construyendo un nuevo sitio web, con mi propio CMS, y estoy tratando de descubrir cómo implementar el reconocimiento de fecha de publicación.
fuente
Respuestas:
debe pasar por el mapa del sitio xml o la versión de fuente RSS para indexar sus datos de publicación a través de los principales motores de búsqueda como Google, Yahoo y MSN. Genere un mapa del sitio XML para su sitio web y envíelo a las herramientas maestras de la web para su índice.
fuente
Simplemente tuve el problema de que todas mis páginas principales se mostraban actualizadas hace más de 4 años, a pesar de que Google sabe que eso no es cierto porque las páginas han sido indexadas durante tanto tiempo y cambian sustancialmente de un mes a otro. Después de estar realmente perplejo, luego realmente molesto, luego perplejo nuevamente, finalmente encontré el problema. Nuestros términos legales se publicaban en un div oculto con un "Última actualización: 30 de octubre de 2007" y el div se cargaba en casi todas nuestras páginas. (Porque aparece en el registro) Lo eliminé y ahora supongo que la fecha desaparecerá o se corregirá a algo más razonable.
Una historia de advertencia y una prueba más de que comprueban la semántica del sitio más que los detalles técnicos o su propio historial de indexación.
fuente
Dudo mucho que la fecha de publicación de una publicación o artículo se base en la
<lastmod>
entrada en un mapa del sitio XML (como lo han sugerido otros) o en el encabezado HTTP de última modificación para el caso. Un mapa del sitio XML es solo informativo, no autorizado. La última fecha de modificación de un documento probablemente no sea la misma que la fecha de publicación (original) de un artículo. Y, como mencioné en mi comentario en la parte superior de la página, la última fecha de modificación de un documento es probablemente más importante para el almacenamiento en caché y quizás para determinar las tasas de rastreo. El encabezado HTTP de última modificación de páginas generadas dinámicamente a menudo está muy cerca de la fecha / hora real (como lo es para los blogs de WordPress).Un feed RSS / Atom, por otro lado, contiene esta pepita de información específica. Y, de hecho, en los sitios de Wordpress que no incluyen la fecha de publicación en el contenido, la fecha de publicación todavía aparece en los resultados de búsqueda de Google. Y hasta donde puedo decir, esto coincide con la fecha en el RSS Feed.
EDITAR # 1: Sin embargo, un feed RSS no necesariamente contiene todas las páginas. En la mayoría de los casos sólo debe contener las últimas o más recientemente actualizados páginas. Pero no hay ninguna razón por la que Google deba olvidar lo que ya ha leído, y el hecho de que el contenido de esa página no haya cambiado, tampoco debería cambiar la fecha de la última modificación.
Si no hay una fuente RSS, creo que Google es lo suficientemente inteligente como para analizar el contenido de la página. Particularmente si las fechas se marcan 'semánticamente' con la ayuda de microformatos . Es perfectamente factible que Google vea lo siguiente como la fecha autorizada de publicación de un artículo que contiene:
Google ciertamente lee microformatos : hCard, hReview, etc.
Solo para agregar, no creo que Google establezca una fecha de publicación a menos que haya podido encontrar algo autorizado que sugiera esto. ¡No va a deducir una 'fecha de publicación' en los datos especulativos, ya que una 'fecha de publicación' incorrecta no es útil para nadie y Google se quedaría con mucho por ella!Y solo para el registro (si @Tom sugiere lo contrario :) Creo que las publicaciones / artículos deberían tener la fecha de publicación visible. Muchos no lo hacen, y esto puede ser frustrante para el lector, especialmente cuando investiga problemas de tecnología, ¡y encuentra que haber leído la mitad del artículo está desactualizado!
EDITAR # 2: desde entonces he experimentado una molestia similar a la que @mmdanziger detalla en su respuesta. En uno de mis sitios antiguos, tengo el texto del formulario "Sitio actualizado por última vez el 17 de junio de 2012" (no marcado de ninguna manera especial) en la parte superior de cada página (¡escrito en la página con JavaScript!). Google ha recogido esta misma fecha y ahora aparece junto con varias (pero no todas) páginas que aparecen en los SERPS; esta ciertamente no es la fecha de publicación de la página. Parece que Google simplemente está desechando la página para obtener una cadena del formulario "última actualización ( cadena de fechas )" (¡¡después de haber procesado el JavaScript !!). Este sitio en particular no tiene una fuente RSS. El sitio tiene un archivo Sitemap.xml pero las fechas son diferentes.
He notado un comportamiento similar en otros sitios también.
fuente
<div class="footer"> <div class="links"> April 24, 2011 | <a href=...
Este es el ÚNICO lugar que se refiere a la fecha de publicación de mi publicación, y Google lo encuentra y se muestra correctamente en el resultado de la búsquedaCreo que Google usa Sitemap y RSS para reconocer la fecha de publicación. Puede incorporar esta característica en su CMS creando un mapa del sitio xml de acuerdo con los Estándares .
fuente
Según Jonh Mueller en Google:
Sin embargo, lo más probable es que Google busque fechas en páginas web en los siguientes lugares:
fuente
Creo que busca de manera inteligente cualquier fecha en la página y cuando está seguro de que es la fecha relevante, la usa.
A veces es un poco difícil, ya que creo que puede tener un impacto negativo en la capacidad de hacer clic en SERP, supongo que puede tener un impacto positivo temporal si es un artículo / publicación reciente, pero estoy bastante seguro de que mis sitios estarían mejor sin él (¡Sin embargo, los buscadores de Google podrían no estar mejor sin él!)
No hay opciones para controlarlo a través de Google, solo con sus propios métodos. Tu también puedes:
Por estas razones, simplemente lo ignoraría.
fuente