¿Google Preview obedece a Robots.txt?

11

Porque seguro que se ve así. Para mis sitios, no permitimos el directorio de imágenes y las vistas previas son imágenes que faltan, lo que hace que el sitio se vea inestable.

¿Es este el caso y hay una manera de permitir que solo el bot de vista previa acceda a las imágenes usando robots.txt?

EDITAR: Parece que las previsualizaciones son generadas tanto por el Google Bot normal como por un bot on the fly de Google Web Preview como se menciona (brevemente) en el Blog Central de Webmaster .

Al usar un sitio: la búsqueda y mi software de monitoreo pude ver cuándo el bot llegó a mi sitio y cuando esto sucedió, las imágenes se mostraron muy bien en la vista previa. Entonces, supongo que el rastreador normal ignora las imágenes por robots.txt, pero el rastreador de vista previa obtiene las imágenes de todos modos.

Esta implementación parece un poco miserable porque mis opciones parecen ser:

  1. Permitir que Google Bot rastree mis imágenes (lo que no quiero hacer)
  2. use la etiqueta nosnippet que bloquea la vista previa, pero TAMBIÉN fragmentos (que no quiero hacer)
  3. Deje que aparezcan las previsualizaciones inestables que pueden afectar negativamente los clics
plntxt
fuente
Si solo se trata de no tener las imágenes indexadas, puede permitir el rastreo pero servir las imágenes con un encabezado HTTP x-robots-tag con "noindex".
John Mueller
@ John Mueller Parece que esta es la respuesta. ¿Por qué no publicarlo en la sección de respuestas?
plntxt

Respuestas:

3

Creo que John Mueller tenía razón en los comentarios.

Si solo se trata de no tener las imágenes indexadas, puede permitir el rastreo pero servir las imágenes con un encabezado HTTP x-robots-tag con "noindex"

No sabía que podía permitir que Google rastreara contenido sin indexarlo. Puse su técnica en su lugar y estoy esperando a que me rastreen para ver si funcionó.

Aceptaré esto como respuesta en unos días, a menos que John quiera agregar sus comentarios a la sección de respuestas para poder ganar el representante.

plntxt
fuente
Perdón por el comentario-respuesta :). Una cosa a tener en cuenta es que este proceso no es realmente tan rápido en este momento. Cambiar el estado de indexación de las imágenes es generalmente más lento que la búsqueda en la web, y la actualización de las imágenes de vista previa también puede llevar mucho más tiempo que la actualización del contenido normal de la búsqueda en la web (página en caché, título, fragmento). En la práctica, imagino que esto es algo que tomará el orden de semanas para que veas los cambios, así que ten paciencia :).
John Mueller
La paciencia es la clave. Varias semanas después del cambio, algunas imágenes ahora son visibles, mientras que todavía faltan. Pero esto parece haber sido la solución a mi problema.
plntxt
2

Como la mayor parte de la vista previa la realiza el rastreador de bot de Google, bloquear el rastreo de alguna parte de su sitio afectará la vista previa ...

¿Por qué no quieres permitir que el robot de Google rastree tus imágenes?

Pascal Qyy
fuente
2
Invertimos mucho tiempo y dinero invirtiendo en fotografía de productos y preferimos mantener nuestras imágenes fuera de la búsqueda de imágenes, ya que las personas que usan la búsqueda de imágenes suelen buscar una imagen y no buscan comprar un producto. Si nuestras imágenes estuvieran en el índice, sería más fácil para los competidores robarlas.
plntxt
1
Puede intentar marcar sus imágenes y / o esteganografía con marca de agua dentro de los derechos de autor y / o mostrar el filtro por referencia ...
Pascal Qyy
1
@SOL. Qyy O podría pagar un número infinito de monos para escanear la web en busca de imágenes con derechos de autor.
plntxt
@ Jim: O puedes conservar preciosamente tus fotos en papeles, y nunca, nunca ponerlas en internet ... ^^
Pascal Qyy
1
Buen punto: nada puede proteger completamente sus imágenes, pero realmente preferiría no tenerlas en el índice de Google. No soy un fanático de las marcas de agua, y la forma más rentable de reducir nuestras imágenes en otros lugares es mantenerlas fuera del índice.
plntxt
2

La siguiente es una solución técnica que puede aplicarse o no simplemente a su sitio.

Es posible (incluso probable) que Google salga con una manera de hacer esto con solo algunos consejos en metadatos o robots.txt, pero hasta entonces ...


Paso 1.

Cree un servicio de redirección / servlet para imágenes de portada.

Es decir, una URL como

/frontpageimages/[image name]

eso hace que un servidor redirija a

/images/[image name]

Paso 2.

Haga que todos los enlaces de imágenes en su página principal (y solo la página principal) se reescriban para pasar por el servicio de redirección desde el paso 1 en lugar de vincularse directamente a la imagen.

Paso 3.

Asegúrese de que robots.txt permita que googlebot se arrastre /frontpageimages/


Esto debería garantizar que Google pueda rastrear cualquier imagen que encuentre en su página principal mientras deja las imágenes solo en otras páginas.

Si bien el servicio de redirección podría (en teoría) usarse para rastrear todas sus imágenes sin violar técnicamente su robots.txt, no es algo que los robots con buen comportamiento (como googlebot) vayan a hacer. Y los robots mal portados no se preocuparán por el archivo robots.txt.

Kris
fuente
¿Quién solo quiere que su página principal muestre una vista previa? Sé que quiero que cada página muestre una buena vista previa. Si hace esto para cada página, esencialmente está negando el propósito de bloquear las imágenes en primer lugar.
John Conde
@ John Tienes razón. En ese caso, quieres que Google te indexe o no.
Kris