Páginas de indexación de Google con #! aunque no tenemos ninguna

11

Nuestra compañía ha desarrollado una aplicación de página única usando AngularJS y su enrutamiento. Google indexó nuestro sitio decentemente con JavaScript, pero no indexó algunas páginas muy bien, por lo que hemos desarrollado una versión solo HTML.

Hemos seguido la especificación de rastreo de Ajax publicada aquí y tenemos una <meta name='fragment' content='!'>etiqueta y URL canónicas. Esperamos que http://www.example.com/foo/barnos traigan http://www.example.com/?_escaped_fragment_=/foo/bar.

Sin embargo, hemos descubierto que cuando lanzamos la especificación AJAX ahora tenemos todas las páginas indexadas dos veces, una con la versión de JavaScript como http://www.example.com/foo/bary otra con la nueva versión como http://www.example.com/#!/foo/bar. Esto es perjudicial para nosotros ya que es contenido duplicado y también representa mal el sitio.

He intentado buscar preguntas similares aquí y en el foro de productos de Google, pero no pude encontrar nada.

Benjamin Gruenbaum
fuente
¿Has planteado este problema con Google? En su foro?
Jérôme Verstrynge
@JVerstry sí, lo hice inmediatamente después de publicar esta pregunta: productforums.google.com/forum/… Sin embargo, mi primera suposición es que no entendimos el protocolo correctamente en lugar de que algo esté mal con su producto, por lo que mis posibilidades de obtener la ayuda aquí es bastante decente, además de que esta pregunta es relevante para un público objetivo grande aquí (todos con una aplicación de página única que no usa #! en las URL y quieren que Google los indexe). Gracias por la sugerencia por cierto.
Benjamin Gruenbaum
1
¿ Definió URLs canónicas a través de rel="canonical"?
kqw
3
redirigiendo el #! urls y encubrir las feas urls no parece que estés siguiendo las especificaciones.
Tony McCreath
1
Me pregunto, si no está usando #!URL, ¿por qué está usando _escaped_fragment_la especificación AJAX de Google?
MrWhite

Respuestas:

2

En caso de duda, use rel="canonical". Esto podría ser tan simple como poner <link rel="canonical" href="http://blog.example.com/dresses/green-dresses-are-awesome" />en su <head>. Ver Google para más información.

Esto no evitará que los bots rastreen ambas "versiones", pero le dirá a Google (y otros SERPs) que solo indexen el documento canónico.

Phil Tune
fuente
En ese mismo sentido, ¿puede usar un archivo robots.txt?
eyoung100
Tenemos esos, no ayudaron en este caso.
Benjamin Gruenbaum
1

Realmente no entiendo acerca de JavaScript.
En la indexación de Google , <head>usamos la url canónica como dice @philtune. Pero si no puedes esperar http://www.example.com/foo/barque te traigan http://www.example.com/?_escaped_fragment_=/foo/bar.

Google Fetch acaba de obtener el canonical url.

En este caso, la url es http://www.example.com/foo/bar, google también indexará http://www.example.com/foo/bar.

Si quieres que Google indexe tu página, agrega este script en <head>:

<meta content = 'index, follow' name = 'googlebot' />

y luego buscar nuevamente usando el Google Fetch.

Note:
google rastreará y seguirá y rastreará el sitio web y seguirá todos los enlaces de la página. Si en su página tiene un enlace como http://www.example.com/?_escaped_fragment_=/foo/bary redirige a http://www.example.com/foo/bar, google indexará http://www.example.com/foo/barporque http://www.example.com/?_escaped_fragment_=/foo/barse redirige a http://www.example.com/foo/bar.

mitchell
fuente