¿Es engañosa la "calificación promedio" de Amazon?

49

Si entiendo correctamente, las clasificaciones de libros en una escala de 1-5 son puntajes Likert. Es decir, un 3 para mí puede no ser necesariamente un 3 para otra persona. Es una escala ordinal de la OMI. Uno realmente no debería promediar escalas ordinales, pero definitivamente puede tomar la moda, la mediana y los percentiles.

Entonces, ¿está bien ' doblar las reglas ya que la gran parte de la población entiende los medios que las estadísticas anteriores? Aunque la comunidad investigadora reprende con firmeza la toma de promedios de datos basados ​​en la escala Likert, ¿está bien hacer esto con las masas (prácticamente hablando)? ¿Tomar el promedio en este caso es incluso engañoso para empezar?

Parece improbable que una empresa como Amazon no tenga en cuenta las estadísticas básicas, pero si no, ¿qué me estoy perdiendo aquí? ¿Podemos afirmar que la escala ordinal es una aproximación conveniente al ordinal para justificar tomar la media? ¿Por qué motivos?

Doctor
fuente
3
Si el 3 para usted no es lo mismo que un 3 para otra persona, entonces ni siquiera tiene una escala: tiene una colección de medidas incomparables y hay pocas cosas significativas que pueda hacer para resumirlas. Lo que hace que una escala sea ordinal es que (a) los valores se pueden comparar, por lo que su 3 y mi 3 significan lo mismo, pero (b) las diferencias numéricas de valores no tienen sentido aparte de sus signos, de modo que (digamos) dos 3, a 4 y un 2, o un 5 y un 1 se pueden poner en cualquier orden, aunque numéricamente cada par de calificaciones tiene la misma media y mediana.
whuber
1
@whuber, pero ¿no es cierto que 2 personas pueden no compartir la misma opinión en una escala 1-9 sobre los números? ¿Un 6 para mí puede no ser un 6 para otra persona a menos que tenga una escala predefinida?
PhD
1
Hace poco leí una crítica en Amazon que decía "Un producto brillante no puede fallar. Nunca le daría a 5 estrellas nada, así que he otorgado 4". Si esto no sesga la media, entonces no sé si lo hace
Matt Wilko
2
@Wilko Estás hablando de diferencias de opinión, no de diferencias de escala. Incluso cuando una escala se calibra con mucho cuidado, como en (digamos) puntuación para gimnasia o patinaje artístico o la escala internacional para evaluar la dificultad de los rápidos en los ríos, e incluso cuando los expertos están entrenados para usar esa escala, todavía habrá variaciones. Eso generalmente no se interpreta como evidencia de que la escala es subjetiva: se interpreta como una variación entre los jueces.
whuber
1
Lo sentimos, esta no es realmente una respuesta, pero desafortunadamente no pude encontrar la función de "comentario". Recientemente, comencé a escribir mi tesis de maestría sobre los elementos clave de las reseñas de los clientes. Teniendo en cuenta las siguientes circunstancias, también comencé a dudar de la importancia del sistema de calificación de 5 estrellas de Amazon. - Número de revisiones desconfiadas - Efectos del sesgo de las calificaciones y las curvas J ( buildingreputation.com/writings/2009
derPio

Respuestas:

42

Beneficios de usar la media para resumir la tendencia central de una calificación de 5 puntos

Como @gung mencionó, creo que a menudo hay muy buenas razones para tomar la media de un ítem de cinco puntos como índice de tendencia central. Ya he esbozado estas razones aquí .

Parafrasear:

  1. la media es fácil de calcular
  2. La media es intuitiva y bien entendida.
  3. La media es un número único.
  4. Otros índices a menudo producen un orden de clasificación similar de los objetos.

¿Por qué la media es buena para Amazon?

Piensa en los objetivos de Amazon al informar la media. Podrían estar apuntando a

  • Proporcionar una calificación intuitiva y comprensible para un artículo
  • Garantizar la aceptación del usuario del sistema de calificación
  • Asegúrese de que las personas entiendan lo que significa la calificación para que puedan usarla adecuadamente para informar las decisiones de compra

Amazon proporciona algún tipo de media redondeada, conteos de frecuencia para cada opción de calificación y el tamaño de la muestra (es decir, el número de calificaciones). Presumiblemente, esta información es suficiente para que la mayoría de las personas aprecien tanto el sentimiento general con respecto al artículo como la confianza en dicha calificación (es decir, un 4.5 con 20 calificaciones es más probable que sea preciso que un 4.5 con 2 calificaciones; un artículo con 10 5 -calificaciones de estrellas, y una calificación de 1 estrella sin comentarios aún podría ser un buen artículo).

Incluso podría ver el medio como una opción democrática. Muchas elecciones se deciden en función de qué candidato obtiene la media más alta en una escala de dos puntos. Del mismo modo, si toma el argumento de que cada persona que presenta una revisión obtiene un voto, entonces puede ver la media como un formulario que pondera el voto de cada persona por igual.

¿Son las diferencias en el uso de la escala realmente un problema?

Existe un amplio rango de sesgos de calificación conocidos en la literatura psicológica (para una revisión, ver Saal et al 1980), como sesgo de tendencia central, sesgo de clemencia, sesgo de rigor. Además, algunos evaluadores serán más arbitrarios y otros serán más confiables. Algunos incluso pueden mentir sistemáticamente dando críticas falsas positivas o negativas falsas. Esto creará varias formas de error al intentar calcular la calificación media real de un artículo.

Sin embargo, si tuviera que tomar una muestra aleatoria de la población, estos sesgos se cancelarían, y con un tamaño de muestra suficiente de evaluadores, aún obtendría la media real.

Por supuesto, no obtienes una muestra aleatoria en Amazon, y existe el riesgo de que el conjunto particular de evaluadores que obtienes para un artículo esté sesgado sistemáticamente para ser más indulgente o estricto, y así sucesivamente. Dicho esto, creo que los usuarios de Amazon apreciarían que las calificaciones enviadas por los usuarios provengan de una muestra imperfecta. También creo que es bastante probable que con un tamaño de muestra razonable que, en muchos casos, la mayoría de las diferencias de sesgo de respuesta comiencen a desaparecer.

Posibles avances más allá de la media

En términos de mejorar la precisión de la calificación, no cuestionaría el concepto general de la media, sino que creo que hay otras formas de estimar la verdadera calificación media de la población para un elemento (es decir, la calificación media que se obtendría fueron una muestra representativa grande a la que se le pidió calificar el artículo).

  • Evaluadores de peso basados ​​en su confiabilidad
  • Utilice un sistema de calificación bayesiano que calcule la calificación promedio como una suma ponderada de la calificación promedio para todos los artículos y la media del artículo específico, y aumente la ponderación para el artículo específico a medida que aumenta el número de calificaciones
  • Ajuste la información de un evaluador en función de cualquier tendencia general de calificación entre los ítems (por ejemplo, un 5 de alguien que típicamente da 3s valdría más que alguien que típicamente da 4s).

Por lo tanto, si la precisión en la calificación era el objetivo principal de Amazon, creo que debería tratar de aumentar el número de calificaciones por artículo y adoptar algunas de las estrategias anteriores. Dichos enfoques pueden ser particularmente relevantes al crear clasificaciones de "lo mejor de lo mejor". Sin embargo, para la calificación humilde de la página, es muy posible que la media de la muestra cumpla mejor con los objetivos de simplicidad y transparencia.

Referencias

  • Saal, FE, Downey, RG y Lahey, MA (1980). Calificación de las calificaciones: Evaluación de la calidad psicométrica de los datos de calificación. Boletín psicológico, 88, 413.
Jeromy Anglim
fuente
1
+1. Creo que esto va más allá / extiende su respuesta anterior de una manera muy agradable. Me gusta especialmente la sección 'por qué la media es buena para Amazon', que enumera más claramente a lo que estaba tratando de llegar en mi última oración. 'Diferentes usos de una escala' también es bastante perspicaz; Le agradecería una cita para una revisión de esa literatura, si conoce una buena. Sin embargo, observo que la última sección está algo en tensión con la segunda.
gung - Restablece a Monica
2
Gracias. Agregué una referencia a la literatura de sesgo de calificación, y agregué algo al final que trata de conciliar las dos perspectivas.
Jeromy Anglim
2
+1 @JeromyAnglim: una perspectiva exhaustiva que arroja luz sobre los diversos aspectos del problema. ¡Prestigio!
PhD
+1, gran respuesta. Aunque encontré una oración ligeramente engañosa. Cuando dijo "Sin embargo, si tomara una muestra aleatoria de la población, estos sesgos se cancelarían, y con un tamaño de muestra suficiente de evaluadores, todavía obtendría la media real". - No creo que eso se aplique a todos los sesgos, incluso si tuviera una muestra aleatoria de la población.
Michael Bishop
1
@MichaelBishop Gracias, estoy de acuerdo en que mi idioma era un poco descuidado allí. Supongo que depende de lo que se entiende por "verdadero significado". Puedo ver cómo si tienes falsificadores en la población, esto podría sesgar la media de la población no ajustada lejos de una hipotética "media real". Estaba pensando más que cualquier sesgo sistemático de las personas que se aplique a todos los elementos se cancelaría para permitir el ordenamiento imparcial de los elementos según la media resultante.
Jeromy Anglim
15

Para ser algo técnico aquí, esas calificaciones no son en realidad una escala Likert ; son solo clasificaciones ordinales. Ahora, habiendo dicho eso, su punto es esencialmente correcto. Sin embargo, a menudo pienso que se hace demasiado de este problema. Una cosa a tener en cuenta es que generalmente se entiende que el promedio de una serie de elementos ordinales puede ser aproximadamente un intervalo, y por lo tanto, cuando hay muchas clasificaciones, la media se convierte en una representación más razonable. He encontrado que esta respuesta de @JeromyAnglim es excelente (realmente, la pregunta y todas las respuestas correspondientes valen la pena). Para un tratamiento más teórico, ver aquí.. En una nota diferente, me gusta Amazon, pero no veo ninguna razón para esperar sofisticación estadística de ellos, especialmente en términos de diseño básico del sitio: el punto es la usabilidad por parte de los consumidores, no para impresionar a los profesores de estadísticas.

gung - Restablece a Monica
fuente
2
Amazon ha sido uno de los líderes en la industria de tecnología (internet) en diseño experimental para publicidad en línea y uso de sitios web. Puede estar seguro de que en realidad son bastante sofisticados en sus enfoques estadísticos. :-) Su punto es bueno. Para ir un paso más allá, ¿te imaginas si Amazon estuviera haciendo algo "más sofisticado" y alguien los verificara usando un promedio simple y descubriera que algunos elementos se clasificaron como "más altos" que su promedio y otros "más bajos"? alboroto y dejar Amazon para tratar de explicar sus "sesgos ocultos" con respecto a los productos
cardenal
1
Otros servicios, por ejemplo, Netflix, evitan este problema al proporcionar solo los datos de "resumen". :)
cardenal
@cardinal, eso es muy interesante, no sabía eso de Amazon.
gung - Restablece a Monica
15

Todos tienen buenas opiniones sobre esto. Realmente no creo que pueda agregar mucho más. Sin embargo, publicaré esto :

inspectorG4dget
fuente
77
Supongo que el cómic destaca que algunas personas son pobres jueces de la calidad de un artículo, y al promediar sobre muchas de esas personas, obtienes un promedio pobre. En general, la sabiduría de las multitudes sugiere que los promedios funcionan bastante bien cuando al menos una proporción razonable de personas tiene algún conocimiento. Las calificaciones de ponderación por confiabilidad también podrían ser una estrategia para superar los problemas.
Jeromy Anglim
1
La otra opción es usar las recomendaciones de estilo de Netflix, comparando su calificación con las calificaciones de otros usuarios, y luego promediando las calificaciones ofrecidas por los usuarios con opciones similares a las suyas.
rahul
1
@rahul Ese es un buen punto. En mi respuesta, a veces asumo que las calificaciones son en gran medida puntaje + error, incluso si hay una estructura para el error. Pero cuando se trata de dominios donde la preferencia personal es parte de la definición de calidad, esto no siempre tiene mucho sentido.
Jeromy Anglim
Me gusta eso, y es por eso que (como consumidor) trato de leer las reseñas y no solo mirar la cantidad de estrellas. Pero pensé que era irónico que en este caso los métodos más "sofisticados" de mediana, modo y percentiles den un resultado peor que la media ;-)
Darren Cook
3

En mi experiencia, la media de los datos de la escala de calificación a menudo se correlaciona más estrechamente con el nivel de métricas del mundo real que intentamos asociar con la escala de calificación. Hemos encontrado muchas relaciones lineales y, por lo tanto, el promedio es una de las mejores formas de resumir los datos. Dicho esto, como señaló Jeromy, la mayoría de las formas de analizar la tendencia central de una escala de calificación dará resultados similares (órdenes de clasificación, etc.) la mayor parte del tiempo.

Además, sospecho que Amazon probablemente no esté tan preocupado por la validez científica de una forma u otra. El objetivo de Amazon, al final, es lograr que las personas compren más en Amazon.com, y la forma en que las revisiones ayudan a lograr eso probablemente no variará con el resumen de un número que se use. Los buenos productos serán recompensados, los productos realmente malos serán castigados y los compradores nerviosos tendrán la oportunidad de revisar los pros y los contras con más detalle.

Jonathan
fuente
2

Las calificaciones de Amazon son engañosas debido a que las empresas juegan con el sistema. Cuando a los clientes se les ofrecen reembolsos y mercadería gratis a cambio de revisiones de 5 estrellas, las "estadísticas" de cuál es o significa el número de calificaciones se vuelven discutibles.

John
fuente
1
¿Tiene algún dato sobre con qué frecuencia ocurren tales cosas?
Michael Bishop
1

Usted hace un buen punto. Tomar la media de los números ordinales es algo engañoso. Cualquier resumen de varias clasificaciones se vería afectado por el hecho de que mi 3 subjetivo realmente puede ser igual a su 4. Por lo tanto, combinar diferentes puntajes individuales es probablemente el mayor problema. Interpretar el promedio de un 3 y un 4 como 3.5 no es tan atroz.

Michael Chernick
fuente