¿Cómo obtener decenas de millones de páginas indexadas por el robot de Google?

12

Actualmente estamos desarrollando un sitio que actualmente tiene 8 millones de páginas únicas que crecerán a unos 20 millones de inmediato, y eventualmente a unos 50 millones o más.

Antes de criticar ... Sí, proporciona contenido único y útil. Continuamente procesamos datos sin procesar de registros públicos y al hacer un poco de depuración de datos, resúmenes de entidades y mapeo de relaciones, hemos podido generar contenido de calidad, desarrollando un sitio que es bastante útil y único, en parte debido a la amplitud de datos.

Su PR es 0 (nuevo dominio, sin enlaces), y nos estamos arañando a un ritmo de aproximadamente 500 páginas por día, lo que nos coloca en aproximadamente 30,000 páginas indexadas hasta el momento. A este ritmo, llevaría más de 400 años indexar todos nuestros datos.

Tengo dos preguntas:

  1. Es la tasa de indexación directamente correlacionada con PR, y con eso quiero decir que está lo suficientemente correlacionada como para que al comprar un dominio antiguo con buena PR nos lleve a una tasa de indexación viable (en el vecindario de 100,000 páginas por día).
  2. ¿Hay algún consultor SEO que se especialice en ayudar al proceso de indexación? Estamos de lo contrario va muy bien con SEO, en -página especialmente, además, la competencia por nuestra "cola larga" frases de palabras clave es bastante bajo, por lo que nuestros bisagras de éxito sobre todo en el número de páginas indexadas.

Nuestro principal competidor ha logrado aproximadamente 20 millones de páginas indexadas en poco más de un año, junto con una clasificación Alexa 2000-ish.

Calidades notables que tenemos en su lugar:

  • la velocidad de descarga de la página es bastante buena (250-500 ms)
  • sin errores (no hay errores 404 o 500 al ser arañado)
  • Utilizamos las herramientas para webmasters de Google e iniciamos sesión diariamente
  • URL amigables en su lugar
  • Tengo miedo de enviar mapas del sitio. Algunas publicaciones de la comunidad SEO sugieren un nuevo sitio con millones de páginas y no hay relaciones públicas sospechosas. Hay un video de Google de Matt Cutts hablando de una incorporación por etapas de sitios grandes , también, para evitar un mayor escrutinio (aproximadamente a las 2:30 en el video).

  • Los enlaces del sitio en los que se puede hacer clic ofrecen todas las páginas, no más de cuatro páginas de profundidad y, por lo general, no más de 250 (-ish) enlaces internos en una página.
  • El texto de anclaje para enlaces internos es lógico y agrega relevancia jerárquicamente a los datos en las páginas de detalles.
  • Anteriormente habíamos establecido la frecuencia de rastreo más alta en las herramientas para webmasters (solo una página cada dos segundos, máximo). Hace poco volví a "dejar que Google decida", que es lo que se recomienda.

Chris Adragna
fuente
66
Realmente me gustaría ver 50 millones de páginas con contenidos útiles únicos. Es genial que Wikipedia carezca de tanto conocimiento en comparación con su sitio, hoy solo tiene 3.5 millones de páginas [ref. en.wikipedia.org/wiki/File:EnwikipediaArt.PNG]
Marco Demaio
3
:) Mirando más allá del sarcasmo ... no es el número de páginas lo que hace que Wikipedia sea una gran fuente de conocimiento, claramente, sí, más útil. Nuestro sitio genera una página para cada registro de una persona y una página para cada registro de una empresa en nuestra base de datos. Usamos análisis y depuración de datos para generar dinámicamente relaciones entre socios comerciales, representando gráficamente una red comercial de personas y corporaciones relacionadas. El número de páginas es una función de la cantidad de datos que tenemos. Hacer que sea detectable mediante la búsqueda lo hace más útil para todos. Gracias por tu comentario.
Chris Adragna
1
Obtenga más pagerank, al obtener más inlinks. Enlace a sus páginas desde páginas que tienen pagerank.
Alex Black

Respuestas:

20

Algunas estrategias potenciales:

  • Las Herramientas para webmasters de Google le permiten solicitar una mayor frecuencia de rastreo. Intenta hacerlo si aún no lo has hecho.
  • Eche otro vistazo a su arquitectura de navegación para ver si no puede mejorar el acceso a más contenido. Míralo desde la perspectiva del usuario: si es difícil para un usuario encontrar una información específica, también puede ser difícil para los motores de búsqueda.
  • Asegúrese de no tener contenido duplicado debido a parámetros de URL inconsistentes o uso incorrecto de barras. Al eliminar el contenido duplicado, reduce el tiempo que Googlebot pasa rastreando algo que ya ha indexado.
  • Utilice enlaces de contenido relacionados y enlaces en el sitio dentro de su contenido siempre que sea posible.
  • Aleatoriza algunos de tus enlaces. Una barra lateral con contenido interno aleatorio es un gran patrón para usar.
  • Use fechas y otros microformatos .
  • Utilice los canales RSS siempre que sea posible. Las fuentes RSS funcionarán de la misma manera que un mapa del sitio (de hecho, las Herramientas para webmasters de Google le permiten enviar una fuente como mapa del sitio).
  • Con respecto a los mapas de sitio, vea esta pregunta .
  • Encuentre formas de obtener enlaces externos a su contenido. Esto puede acelerar el proceso de indexación. Si es apropiado para el tipo de contenido, será más fácil compartirlo socialmente o por correo electrónico.
  • Proporcione una API para incentivar el uso de sus datos y enlaces externos a sus datos. Puede tener un enlace de atribución como requisito para el uso de datos.
  • Abraza a la comunidad. Si se comunica con las personas adecuadas de la manera correcta, obtendrá enlaces externos a través de blogs y Twitter.
  • Busque formas de crear una comunidad alrededor de sus datos. Encuentre una manera de hacerlo social. Las API, mashups, widgets sociales ayudan, pero también lo hacen un blog, exhibiciones comunitarias, foros y mecanismos de juego (también, vea este video ).
  • Priorice qué contenido ha indexado. Con tanta información, no toda será absolutamente vital. Tome una decisión estratégica sobre qué contenido es más importante, por ejemplo, será el más popular, tendrá la mejor oportunidad de retorno de la inversión, será el más útil, etc. y asegúrese de que ese contenido se indexe primero.
  • Haga un análisis detallado de lo que está haciendo su competidor para indexar su contenido. Mire la arquitectura de su sitio, su navegación, sus enlaces externos, etc.

Finalmente, debería decir esto. El SEO y la indexación son solo pequeñas partes para administrar un sitio de negocios. No pierdas el foco en el ROI por el bien del SEO. Incluso si tiene mucho tráfico de Google, no importa si no puede convertirlo. El SEO es importante, pero debe mantenerse en perspectiva.

Editar :

Como una adición a su caso de uso: puede considerar ofrecer opiniones o testimonios para cada persona o empresa. Además, la entrega de credenciales de usuario como StackOverflow podría atraer a al menos algunas personas a vincular a su propio perfil en su sitio. Eso alentaría algunos enlaces externos a sus páginas profundas, lo que podría significar que se indexe más rápido.

Virtuosi Media
fuente
1
+1 - Siempre vale la pena mencionar que el SEO es un microcosmos del mayor problema de promoción de negocios; también es la forma más fácil (para personas con mentalidad técnica, al menos) en donde perderse. Más personas están viendo la televisión en este momento que en cualquier otro momento anterior de la historia; dependiendo de lo que esté ofreciendo, la publicidad televisiva puede tener un mejor ROI que PPC ...
danlefree
Buena idea sobre los microformatos. No es una bala de plata, pero tenemos varios lugares donde el marcado semántico utilizando estándares de microformato podría ser útil.
Chris Adragna
1
No sé si algún microformato (que no sea posiblemente una marca de tiempo) significaría indexarse ​​más rápido, pero puede haber otros beneficios de SEO al usarlos. Como mínimo, hace que sus páginas sean más fáciles de rastrear y puede ayudar a que su entrada se destaque en la página de resultados del motor de búsqueda (dependiendo del microformato).
Virtuosi Media
5

¿Cómo obtener decenas de millones de páginas indexadas por el robot de Google?

Sin embargo, no sucederá de la noche a la mañana, le garantizo que vería más páginas arañadas antes si se agregan enlaces entrantes a contenido profundo (particularmente páginas de mapa de sitio o índices de directorio que apuntan a contenido aún más profundo) desde sitios de gran tamaño similar que han estado alrededor por un tiempo

¿Un dominio anterior será suficiente para obtener 100.000 páginas indexadas por día?

Dudoso, a menos que esté hablando de un dominio antiguo que ha tenido una cantidad significativa de actividad (es decir, contenido acumulado y enlaces entrantes) a lo largo de los años.

¿Hay algún consultor SEO que se especialice en ayudar al proceso de indexación?

Cuando planteas la pregunta de esa manera, estoy seguro de que encontrarás muchos SEO que proclaman en voz alta "¡sí!" pero, al final del día, las sugerencias de Virtuosi Media son tan buenos consejos como los que obtendrá de cualquiera de ellos (sin mencionar los consejos potencialmente malos).

Por lo que parece, debería considerar la utilización de canales de desarrollo comercial y relaciones públicas para construir la clasificación de su sitio en este punto: obtenga más enlaces a su contenido (preferiblemente al asociarse con un sitio existente que ofrezca contenido dirigido regionalmente para vincular a su contenido dividido regionalmente, por ejemplo), consigue que más personas naveguen a su sitio (algunos tendrán la barra de herramientas de Google instalada para que su tráfico pueda funcionar hacia el descubrimiento de páginas) y, si es posible, haga que se hable de su negocio en las noticias o en las comunidades de las personas que lo necesitan (si planea cobrar por ciertos servicios, considere anunciar un período de prueba gratuito para generar interés).

danlefree
fuente
3

Hay dos posibles opciones que conozco que pueden ser de ayuda.

Uno: un pequeño truco que probé con un sitio web que tenía tres millones de páginas y que funcionó sorprendentemente bien fue lo que mi colega acuñó un ciclo de rastreo. Es posible que tenga que manipular un poco la idea para que se ajuste a su sitio.

Básicamente, establecimos un día en el que no pensábamos que obtendríamos mucho tráfico (Navidad) y literalmente copiamos una lista de cada enlace en nuestro sitio y pegamos cada uno en un archivo php que se llamó en cada página web. (El archivo php de la barra lateral)

Luego percibimos que debíamos ir a la consola de búsqueda de Google (anteriormente herramientas para webmasters de Google) y le pedimos a Google que buscara una URL y rastreara cada enlace en esa página de URL.

Dado que tiene tantos enlaces, y las páginas que enlazan también tienen una cantidad abundante de enlaces, Google entra en un poco de bucle y rastrea el sitio de una manera mucho más rápida. Al principio era escéptico, pero funcionó a las mil maravillas.

Antes de hacer esto, debe asegurarse de tener una configuración de base de datos extremadamente eficiente y un servidor muy potente, de lo contrario podría sobrecargar el servidor o dañar su SEO debido a los lentos tiempos de carga de la página.

Si esa no es una opción para usted, siempre puede consultar las API de la consola en la nube de Google. Tienen una API de consola de búsqueda para que pueda escribir un script para agregar cada página web como su propia instancia de sitio web en la consola de búsqueda o para que Google busque cada una de sus URL.

Los apis pueden complicarse extremadamente rápido, pero son una herramienta increíble cuando se usan correctamente.

¡Buena suerte!

Zak
fuente
1
Vincular sus páginas es una excelente estrategia para rastrearlas todas. Mucho mejor que tratar de confiar en un mapa del sitio XML. Sin embargo, dejaría esos enlaces en su lugar todo el tiempo en lugar de solo el día de Navidad. Tan pronto como elimine los enlaces, Google notará que las páginas pierden enlaces y dejará de indexarlos.
Stephen Ostermiller
2

Jugar al sistema nunca es una buena idea si tienes un negocio legítimo que valora su reputación en línea. Además, si su sitio realmente proporciona valor, cuanto más tiempo esté disponible (¿supongo que está haciendo algún tipo de marketing?), Más enlaces de retroceso se acumularán, por lo que su RP aumentará y su tasa de rastreo aumentará.

Además, si tiene una buena estructura de enlaces en su sitio (todas sus páginas se pueden descubrir en un número razonable de clics / enlaces), entonces solo necesita enviar los índices principales a través del mapa del sitio. Una vez que Google indexe esas páginas, Google las rastreará y Google indexará el resto de las páginas por sí solo.

Lèse majesté
fuente
+1 RE: jugar con el sistema, aunque creo que debe tenerse en cuenta que hay muchas alternativas para jugar con el sistema que permiten que un webmaster genere vínculos de retroceso legítimos (que serán útiles para los visitantes) a su sitio.
danlefree
@danlefree: definitivamente. Solo me refería a comprar nombres de dominio vencidos para obtener su PR / tráfico residual. Pero si puede anunciar su sitio, enviar comunicados de prensa a publicaciones comerciales, sitios de revisión de aplicaciones, etc., esas son muy buenas formas de generar vínculos de retroceso legítimos.
Lèse majesté
2

Una cosa que noté con las herramientas para webmasters de Google es que comienzan permitiendo una frecuencia de rastreo máxima de aproximadamente dos solicitudes por segundo. Luego, aproximadamente una semana más tarde, si descubren que se accede con frecuencia al sitio web, entonces le permitirán aumentar su límite.

Co-ejecuto un sitio web que alberga más de 500,000 imágenes originales y, a veces, mi límite máximo es de 10 solicitudes por segundo porque recibo al menos 700 a 1000 visitas al día, si no más.

Entonces, lo que puede hacer es consultar con las herramientas para webmasters todas las semanas para ver si puede aumentar el límite de rastreo. Cuando cambie el límite de rastreo, Google lo restablecerá a su configuración preferida después de que haya pasado cierto día (que la interfaz le mostrará). Luego, ese día, eleva el límite nuevamente.

Miguel
fuente
2

He tenido experiencia en este tipo de sitio. Ejecuté un directorio de artículos hace muchos años y el% de páginas indexadas y, lo que es más importante, el rendimiento real se correlacionó directamente con la cantidad de dominios de referencia, es decir, la cantidad de sitios web únicos que se vinculan. Un sitio grande con millones de páginas necesita varios 1,000 dominios razonables que se vinculan para funcionar por derecho propio.

Seguramente no va a suceder de la noche a la mañana, pero si construyes entre 5 y 10 buenos enlaces por día a tiempo, comenzará a suceder, entonces estarás en condiciones de generar ingresos y usar eso para pagar un equipo profesional de SEO para construir enlaces para ti.

Estoy construyendo un sitio similarmente rico en información en este momento, sus primeros días, pero tengo el mismo problema con alrededor de 4 millones de páginas de contenido con una tasa de rastreo de 700-1,000 páginas por día.

Adrian Lawrence
fuente