¿Google penaliza las etiquetas <lastmod> actualizadas diariamente en los sitemaps si los datos no se actualizan diariamente?

10

Tengo un mapa del sitio que se genera a diario con muchos enlaces a páginas de productos. Estos productos se importan diariamente desde otra fuente de datos. Debido a que la actualización consiste en descartar toda la información actual del producto y reemplazarla con la nueva información importada, la última fecha de modificación siempre salta un día. Esto también se usa en el mapa del sitio. Incluso para productos que no han cambiado. Todas las páginas de productos fingen haber sido actualizadas.

¿Google penalizará al sitio web por fingir que las páginas han cambiado día a día mientras no?

Mi solución sería cambiar la entrada solo si los nuevos datos del producto importado difieren de los datos anteriores. Solo quiero asegurarme de que esta sea una actualización útil, mientras que también podría dedicar mi tiempo a otras mejoras.

Obtener
fuente

Respuestas:

5

Nunca he escuchado nada sobre una penalización debido a esto. En el peor de los casos, está perdiendo el tiempo de la araña, pero eso es parte de por qué tenemos computadoras en primer lugar: hacer cosas tediosas y repetitivas. Sin embargo, usted debe ser idealmente abordar la cuestión.

Esta...

Mi solución sería cambiar la entrada solo si los nuevos datos del producto importado difieren de los datos anteriores.

... es lo que debe hacer en primer lugar, independientemente de consideraciones externas como mapas de sitio, etc. Si su contenido no es diferente (e incluiría eliminar y reemplazar con información idéntica en esa descripción), entonces su lastmodfecha no debería No se modificará. Aquí estás desperdiciando tus propios recursos. No ha dicho cuántos productos están involucrados, pero habrá un punto en el que este proceso se volverá lento y computacionalmente costoso.

Su '
fuente
Estoy totalmente de acuerdo. Sin embargo, soy confiable en otra compañía que entrega los datos. Siempre envían cada producto (+200) en sus exportaciones de datos. Así que actualizar el lote parecía la mejor solución hace unos años. Mi cliente no tiene el presupuesto para resolver esto correctamente. Estos ex / importaciones ocurren por la noche, por lo que los recursos adicionales utilizados no son un gran problema en este momento.
Obtener
@Elicit si aún tiene este problema, simplemente almacene las exportaciones de datos del día anterior en su formato original y analizable y haga una comparación de git diff-style para ver qué productos han cambiado. Aunque es agradable, no necesita que le envíen solo los productos modificados; deberías poder resolverlo tú mismo.
Anonymous Penguin
3

Nunca me ha gustado la idea de actualizar <lastmod>todos los días, ya que no solo está mal, es engañoso en los motores de búsqueda.

En una publicación sobre SO , Gary Illyes de Google escribió:

La etiqueta lastmod es opcional en los mapas de sitio y en la mayoría de los casos es ignorada por los motores de búsqueda, porque los webmasters están haciendo un trabajo horrible para mantenerla precisa.

En general, he abogado por usar <lastmod>correctamente o no usarlo en absoluto. Dejarlo apagado (así como <changefreq>& <priority>) incluso hace que el archivo en sí sea más pequeño y más rápido para que los motores de búsqueda también lo lean.

Andrew Lott
fuente
2

No. Google lo usará lastmodcomo una pista (igual que todos los valores del mapa del sitio), pero si decide que su contenido no se actualiza diariamente, simplemente lo ignorará y volverá a visitar sus páginas en su propio horario.

Cabra descontento
fuente
2

No trabajo para Google, y no puedo decir con certeza lo que realmente hacen, pero la forma sensata para que traten las <lastmod>marcas de tiempo sería como pistas para no perder el tiempo volviendo a rastrear páginas que no han cambiado.

Entonces, si informa que todas sus páginas se cambian todos los días, Googlebot seguirá rastreando todas sus páginas en el orden que le parezca, en lugar de centrarse solo en las páginas que han cambiado. En efecto, es como si no informara ninguna marca de tiempo de la última modificación.

La razón principal para proporcionar <lastmod>marcas de tiempo correctas es hacer que los cambios en su sitio se muestren más rápido en el índice de Google. Si tiene cientos de páginas en su sitio, Google tardará un tiempo en rastrearlas y encontrar cualquier cambio. Sin embargo, si le dice a Googlebot qué páginas han cambiado recientemente, puede rastrear esas páginas primero y evitar perder mucho tiempo en el resto.

Por supuesto, podría aumentar la tasa de rastreo de Googlebot en Herramientas para webmasters de Google y esperar lo mejor. Pero realmente, no debería ser demasiado difícil hacer que su script de actualización conserve las marcas de tiempo. Por ejemplo, supongo que actualmente estás haciendo algo como esto:

for each product do:
    write new page content into product page file;
end do;

Si es así, simplemente cámbielo a algo como esto en su lugar:

for each product do:
    read old page content from product page file into string A;
    write new page content into string B;
    if A is not equal to B then:
        write string B into product page file;
    end if;
end do;
Ilmari Karonen
fuente
2

No, simplemente ignora la información que ha proporcionado cuando es incorrecta. En este caso, los rastreadores web determinan por sí mismos con qué frecuencia deben rastrear sus páginas.

Jérôme Verstrynge
fuente
El enlace está roto ...
Victor Schröder
1

Google no te penalizará por esto. Para obtener una penalización, realmente debes ponerte el sombrero negro en el culo de Google, así que no te preocupes por eso. Google descubrirá pronto si su contenido tiene cambios (eso es en lo que han estado trabajando en los últimos años) y usará la propiedad lastmod como una pista.

Steven Van Vessum
fuente
1

Le sugiero que lea estas Mejores prácticas para mapas de sitio XML y fuentes RSS / Atom

Hora de última modificación

Especifique una hora de última modificación para cada URL en un mapa del sitio XML y RSS / Atom. La última hora de modificación debe ser la última vez que el contenido de la página cambió significativamente. Si se pretende que un cambio sea visible en los resultados de búsqueda, la última hora de modificación debe ser la hora de este cambio.

XML sitemap uses  <lastmod>
RSS uses <pubDate>
Atom uses <updated>

Asegúrese de configurar o actualizar la hora de la última modificación correctamente:

Specify the time in the correct format: W3C Datetime for XML sitemaps, RFC3339 for Atom and RFC822 for RSS.
Only update modification time when the content changed meaningfully.
Don’t set the last modification time to the current time whenever the sitemap or feed is served.
Juan
fuente
Gracias por la actualizacion. Esperemos que el votante negativo lo vea y revierta su voto.
John Conde