¿Por qué en la primera página Google dice que hay miles de resultados pero en la última página hay menos de cien?

11

¿Por qué en la primera página Google dice que hay miles de resultados pero en la última página hay menos de cien?

Esa es una especie de búsqueda recursiva de Google que debería explicarse por sí misma. Me tomó algo de tiempo ajustar la oración y tratar de encontrar un número que correspondiera con precisión, ¡la razón por la que lo cambié a " cientos " en su lugar! :PAGS

Si ha usado Google el tiempo suficiente, seguramente se ha topado con situaciones similares a esta, muchas veces. Cada vez que muestra menos de 10 páginas, es bastante fácil verlo. El punto es: el número de resultados en cualquier página, excepto la última, parece una estimación terrible .

Lo que es aún más extraño, algunas veces al azar, la estimación de repente se vuelve mucho mejor y casi exactamente la misma en todas las páginas que en la última página, la única página que siempre es correcta.

Entonces, ¿alguien sabe por qué?

cregox
fuente
1
En este momento en la página uno para esa búsqueda dice 3200 resultados, pero en la última página dice 75 (para personas interesadas en una actualización)
dkuntz2
@DKuntz son 2990 y 65 para mí (mientras estoy conectado) mientras que si cierro la sesión (que es como lo hice la primera vez) se convierte en 3120 y 77. Tal vez más tarde cambie ligeramente la pregunta y construya una consulta recursiva más coherente, ¡pero cualquiera puede hacerlo también! : P
cregox
Google es raro
dkuntz2
El mío siempre dice 208 resultados en la última página, ya sean 4 páginas de resultados o 22, siempre dice 208.
mchid
Ver también searchengineland.com/...
1110101001

Respuestas:

6

No sé la respuesta exacta, quizás nadie fuera de Google lo sepa. Pero tengo dos puntos de datos que pueden ser útiles.

El primero es la opinión de XKCD sobre el tema:

Así que realmente parece que hay un cierto umbral de volumen de resultados más allá del cual Google aparentemente dice "atorníllelo" y arroja un número gigantesco. Me imagino que esto probablemente se deba a la incompetencia más que al engaño intencional; Estoy seguro de que es difícil generar páginas rápidamente de muchas fuentes, y tal vez para búsquedas con muchos resultados no tengan tiempo para sincronizarlo todo. Entonces ellos falsifican los números. El hecho de que esto haga que parezca que tienen muchos más resultados de los que tienen es presumiblemente solo una bonificación no intencional.

El segundo punto de datos es de un profesor de ciencias de la computación que tenía, que tenía mucha curiosidad sobre el tema y molestaba a algunos amigos de Google al respecto. Le dijeron que a veces se vuelve muy costoso determinar cuántos resultados realmente se obtuvieron de una búsqueda, por lo que simplemente hacen una suposición y devuelven la primera página de resultados, que es lo que más le importa a la mayoría de las personas. Solo cuando realmente comienza a profundizar en las páginas, Google se molesta en calcular completamente las páginas restantes.

Por lo tanto, ninguna de estas respuestas es definitiva, pero espero que sean útiles para explicar los tipos de problemas que pueden estar causando las imprecisiones de Google.

EDITAR:

La respuesta de Sathya en esta página tiene una respuesta del Webmaster KB de Google .

Cuando realiza una búsqueda, los resultados a menudo se muestran con la información: Resultados 1 - 10 de aproximadamente XXXX.

El cálculo de Google del número total de resultados de búsqueda es una estimación. Entendemos que una cifra aproximada es valiosa, y al proporcionar una estimación en lugar de una cuenta exacta, podemos devolver resultados de búsqueda de calidad más rápido.

Además, cuando hace clic en la siguiente página de resultados de búsqueda, el número total de resultados de búsqueda puede cambiar. En este caso, nos damos cuenta de que algunos de los resultados de la consulta son duplicados y colapsamos esos duplicados para que pueda encontrar el resultado específico que está buscando más fácilmente. Contraer los duplicados disminuye el número estimado de resultados, así como el número total de páginas de resultados.

dsolimano
fuente
Si bien amo a XKCD y odio a los antiguos maestros, lo que me estás diciendo es que probablemente debería preguntar esto en stackoverflow.com: P
cregox
No creo que nadie en stackoverflow tenga una respuesta definitiva; si realmente necesita saber, debe preguntarle a Google. Solo puedo transmitir la respuesta de alguien que le preguntó a Google hace unos meses.
dsolimano
no busca una respuesta definitiva, solo una con una explicación razonable más profunda, preferiblemente de buena fuente. No me malinterpreten, el suyo es razonable, pero decir "porque es difícil", incluso si tiene autoridad y tiene sentido, es muy poco para mí. Hmm ... tal vez escépticos.se: o
cregox
Buena edición, ahora que es un buen abastecimiento! Aunque todavía dice "porque es difícil", lo que significa que todavía espero más detalles. : P
cregox
7

No, el número es solo una aproximación .

Cuando realiza una búsqueda, los resultados a menudo se muestran con la información: Resultados 1 - 10 de aproximadamente XXXX.

El cálculo de Google del número total de resultados de búsqueda es una estimación. Entendemos que una cifra aproximada es valiosa, y al proporcionar una estimación en lugar de una cuenta exacta, podemos devolver resultados de búsqueda de calidad más rápido.

Además, cuando hace clic en la siguiente página de resultados de búsqueda, el número total de resultados de búsqueda puede cambiar. En este caso, nos damos cuenta de que algunos de los resultados de la consulta son duplicados y colapsamos esos duplicados para que pueda encontrar el resultado específico que está buscando más fácilmente. Contraer los duplicados disminuye el número estimado de resultados, así como el número total de páginas de resultados.

Sathyajith Bhat
fuente
Creo que este no es un buen comportamiento si siempre limitan el número de resultados a más o menos 1000 solamente. En caso de que el usuario quiera más, debería mostrar más. En mi punto de vista, algunas palabras clave comunes deberían devolver una gran cantidad de resultados de búsqueda (como flores, libros ...) y creo que existen toneladas de imágenes diferentes en Internet.
@ user11656 está asumiendo que Google Image Search funciona de la misma manera que una búsqueda en una aplicación estándar que podría usar. Las cosas suelen funcionar de manera muy diferente a esa escala. Es probable que no haya una respuesta única para "todas las imágenes que coinciden con la flor", ya que un servidor en Australia podría tener una imagen cargada recientemente que aún no se ha propagado al servidor en los Estados Unidos. Luego tiene que lidiar con cosas como cómo presentar duplicados y cómo hacer todo eso en millones de imágenes para millones de usuarios instantáneamente. Es difícil y tienes que hacer compromisos arquitectónicos.
George Mauer
2

Ninguna de las respuestas anteriores es correcta.

La estimación de Google debe estar más cerca del número real de resultados de lo que se da.

Esto se puede mostrar con un simple ejemplo. Elija una palabra algo frecuente como "Rusia" o "michael". En verdad, debe haber miles, si no cientos de miles, de sitios web en Internet que contienen esas palabras en algún lugar de su sitio. Pero los resultados de Google solo pueden darte, digamos, 700.

La verdad no es que Google da grandes sobreestimaciones, sino que ahora Google limita enormemente la cantidad de resultados que le dará. Resume los resultados severamente, en detrimento nuestro como individuos. Es desafortunado porque quiero leer los miles de sitios con mis términos en algunos casos.

Lo sé porque he usado Google durante mucho tiempo, quizás 10-15 años y he notado que, como regla general, los resultados de los términos se han acortado, no más, a pesar de que la cantidad de sitios con los mismos términos generalmente debe han aumentado en el tiempo que he estado usando Google.

Mientras que en el pasado, hace años, podía obtener quizás 1000 resultados para algunos términos, ahora estoy obteniendo 500 resultados para los mismos términos para los que hubiera obtenido 1000 resultados.

Rakovsky
fuente
2
Tenga en cuenta que "arriba" no tiene contexto en las respuestas, ya que se pueden ordenar de varias maneras diferentes. Incluso si asume el orden predeterminado por "votos", sus posiciones cambiarán a medida que se agreguen votos hacia arriba y hacia abajo.
cerveza
¡Muy interesante! Rusia me da en este momento solo 322 resultados y solo lo muestra en la última página 34 . ¡Hasta entonces diría 799 000 000 de resultados! Si bien esta es una buena idea, todavía no parece correcta. Tampoco creo que las primeras estimaciones sean correctas y la intención es traer solo los resultados que se muestran, no "cuántos cree que existen en la web", por lo tanto, la última página lo arregló.
cregox
1

El problema con el motor de búsqueda de Google (Image) es que apunta a la relevancia al eliminar la varianza. En primer lugar, es importante entender cómo funciona. Una imagen cargada en Internet debe indexarse ​​de dos maneras:

  • basado en la originalidad (la imagen debe ser analizada por un "robot inteligente" basado en color, tamaño, patrones, reconocimiento de forma, tipo, etc.)
  • basado en la similitud (la imagen se analiza mediante un "bot2 inteligente" y se hace una referencia cruzada con imágenes ya existentes en una base de datos y luego se etiqueta con una o dos etiquetas de categoría: "la imagen coincide" y "la imagen es similar a ... ")

Una vez realizada la indexación, la imagen heredará "palabras clave" como resultado del reconocimiento para evitar mostrar resultados fuera del tema al usuario final. La cuestión es que cada palabra clave es una frase independiente con un valor asignado en% basado en la fuerza de la relevancia (es por eso que agrupar más palabras en el cuadro de búsqueda da como resultado menos resultados y también cuando busca una imagen cargándola o ingresando URL, Google asignará una "conjetura" con solo las palabras clave principales, lo que significa que la búsqueda nunca le mostrará todas las imágenes simplemente porque la búsqueda no está diseñada para hacerlo)

Entonces, al final del día, cuando realice una búsqueda de imágenes y justo debajo del cuadro de búsqueda, verá un número tremendo que dice "25,270,000,000 resultados (0.55 segundos)" es casi siempre un número falso, porque no obtendrá más de 200 (máximo 500 pero solo después de que el usuario lo solicite) resultados que también se filtran para excluir:

  • duplicados externos (si la misma imagen es más de 2 veces en la misma página del sitio)
  • duplicados de relevancia (muestra solo los "mejores resultados" - vea la imagen a continuación)
  • imágenes que tienen problemas con la ley (ver imagen a continuación)
  • imágenes que violan DMCA (ver imagen a continuación)
  • imágenes que se originan de fuentes de SPAM, MALWARE, PHISHING
  • imágenes que están ocultas (si un usuario no deshabilitó la Búsqueda segura)
  • imágenes que están en la lista negra de Google ( artículo )
  • imágenes con AR diferente (básicamente todas las imágenes que tienen una relación de aspecto diferente a la referencia de búsqueda de imagen. Por ejemplo, puede perder todos los resultados deseados si busca por su imagen elegida, digamos con una relación extraña 9: 7) mientras que todas las imágenes están indexadas Google tiene una relación 3: 4, que es quizás el mayor inconveniente de este motor de búsqueda porque siempre obedece a la Relación de aspecto como primer criterio)
  • y un montón de más

Para resumirlo: los resultados de búsqueda de una imagen nunca son completamente relevantes. A veces obtendrá el resultado final deseado con una frase de búsqueda "póster de puerta", de lo contrario podría ser "portada de puerta", "puerta bluray", "puerta dvd", "puerta 2015" o incluso "自衛隊 彼 の 地 に て 斯 く 戦え り ": simplemente no se pueden obtener resultados de" TODOS ", porque no hay nada que sea" TODO ", por eso es necesario jugar con ellos para llegar allí. Y también es relevante mencionar, que hay otros motores de búsqueda de imágenes que pueden hacer el trabajo de una manera más diferente, porque trabajan en diferentes estándares y criterios. No es y nunca ha sido "Google", solo ... >> https://www.yandex.com/images/

extensiones notables:

usuario0
fuente
Nuevamente, marcarlos como duplicados sería mucho más útil que publicar la respuesta en cada pregunta.
jonsca
0

En la parte superior dice la página 70 de 7000 resultados (ejemplo). Le dará el número de página y cuántos resultados. No hay 70 resultados, sino 70 páginas. Espero que esto ayude.

Aaron Ford
fuente