Si entiendo correctamente, las clasificaciones de libros en una escala de 1-5 son puntajes Likert. Es decir, un 3 para mí puede no ser necesariamente un 3 para otra persona. Es una escala ordinal de la OMI. Uno realmente no debería promediar escalas ordinales, pero definitivamente puede tomar la moda, la mediana y los percentiles.
Entonces, ¿está bien ' doblar las reglas ya que la gran parte de la población entiende los medios que las estadísticas anteriores? Aunque la comunidad investigadora reprende con firmeza la toma de promedios de datos basados en la escala Likert, ¿está bien hacer esto con las masas (prácticamente hablando)? ¿Tomar el promedio en este caso es incluso engañoso para empezar?
Parece improbable que una empresa como Amazon no tenga en cuenta las estadísticas básicas, pero si no, ¿qué me estoy perdiendo aquí? ¿Podemos afirmar que la escala ordinal es una aproximación conveniente al ordinal para justificar tomar la media? ¿Por qué motivos?
fuente
Respuestas:
Beneficios de usar la media para resumir la tendencia central de una calificación de 5 puntos
Como @gung mencionó, creo que a menudo hay muy buenas razones para tomar la media de un ítem de cinco puntos como índice de tendencia central. Ya he esbozado estas razones aquí .
Parafrasear:
¿Por qué la media es buena para Amazon?
Piensa en los objetivos de Amazon al informar la media. Podrían estar apuntando a
Amazon proporciona algún tipo de media redondeada, conteos de frecuencia para cada opción de calificación y el tamaño de la muestra (es decir, el número de calificaciones). Presumiblemente, esta información es suficiente para que la mayoría de las personas aprecien tanto el sentimiento general con respecto al artículo como la confianza en dicha calificación (es decir, un 4.5 con 20 calificaciones es más probable que sea preciso que un 4.5 con 2 calificaciones; un artículo con 10 5 -calificaciones de estrellas, y una calificación de 1 estrella sin comentarios aún podría ser un buen artículo).
Incluso podría ver el medio como una opción democrática. Muchas elecciones se deciden en función de qué candidato obtiene la media más alta en una escala de dos puntos. Del mismo modo, si toma el argumento de que cada persona que presenta una revisión obtiene un voto, entonces puede ver la media como un formulario que pondera el voto de cada persona por igual.
¿Son las diferencias en el uso de la escala realmente un problema?
Existe un amplio rango de sesgos de calificación conocidos en la literatura psicológica (para una revisión, ver Saal et al 1980), como sesgo de tendencia central, sesgo de clemencia, sesgo de rigor. Además, algunos evaluadores serán más arbitrarios y otros serán más confiables. Algunos incluso pueden mentir sistemáticamente dando críticas falsas positivas o negativas falsas. Esto creará varias formas de error al intentar calcular la calificación media real de un artículo.
Sin embargo, si tuviera que tomar una muestra aleatoria de la población, estos sesgos se cancelarían, y con un tamaño de muestra suficiente de evaluadores, aún obtendría la media real.
Por supuesto, no obtienes una muestra aleatoria en Amazon, y existe el riesgo de que el conjunto particular de evaluadores que obtienes para un artículo esté sesgado sistemáticamente para ser más indulgente o estricto, y así sucesivamente. Dicho esto, creo que los usuarios de Amazon apreciarían que las calificaciones enviadas por los usuarios provengan de una muestra imperfecta. También creo que es bastante probable que con un tamaño de muestra razonable que, en muchos casos, la mayoría de las diferencias de sesgo de respuesta comiencen a desaparecer.
Posibles avances más allá de la media
En términos de mejorar la precisión de la calificación, no cuestionaría el concepto general de la media, sino que creo que hay otras formas de estimar la verdadera calificación media de la población para un elemento (es decir, la calificación media que se obtendría fueron una muestra representativa grande a la que se le pidió calificar el artículo).
Por lo tanto, si la precisión en la calificación era el objetivo principal de Amazon, creo que debería tratar de aumentar el número de calificaciones por artículo y adoptar algunas de las estrategias anteriores. Dichos enfoques pueden ser particularmente relevantes al crear clasificaciones de "lo mejor de lo mejor". Sin embargo, para la calificación humilde de la página, es muy posible que la media de la muestra cumpla mejor con los objetivos de simplicidad y transparencia.
Referencias
fuente
Para ser algo técnico aquí, esas calificaciones no son en realidad una escala Likert ; son solo clasificaciones ordinales. Ahora, habiendo dicho eso, su punto es esencialmente correcto. Sin embargo, a menudo pienso que se hace demasiado de este problema. Una cosa a tener en cuenta es que generalmente se entiende que el promedio de una serie de elementos ordinales puede ser aproximadamente un intervalo, y por lo tanto, cuando hay muchas clasificaciones, la media se convierte en una representación más razonable. He encontrado que esta respuesta de @JeromyAnglim es excelente (realmente, la pregunta y todas las respuestas correspondientes valen la pena). Para un tratamiento más teórico, ver aquí.. En una nota diferente, me gusta Amazon, pero no veo ninguna razón para esperar sofisticación estadística de ellos, especialmente en términos de diseño básico del sitio: el punto es la usabilidad por parte de los consumidores, no para impresionar a los profesores de estadísticas.
fuente
Todos tienen buenas opiniones sobre esto. Realmente no creo que pueda agregar mucho más. Sin embargo, publicaré esto :
fuente
En mi experiencia, la media de los datos de la escala de calificación a menudo se correlaciona más estrechamente con el nivel de métricas del mundo real que intentamos asociar con la escala de calificación. Hemos encontrado muchas relaciones lineales y, por lo tanto, el promedio es una de las mejores formas de resumir los datos. Dicho esto, como señaló Jeromy, la mayoría de las formas de analizar la tendencia central de una escala de calificación dará resultados similares (órdenes de clasificación, etc.) la mayor parte del tiempo.
Además, sospecho que Amazon probablemente no esté tan preocupado por la validez científica de una forma u otra. El objetivo de Amazon, al final, es lograr que las personas compren más en Amazon.com, y la forma en que las revisiones ayudan a lograr eso probablemente no variará con el resumen de un número que se use. Los buenos productos serán recompensados, los productos realmente malos serán castigados y los compradores nerviosos tendrán la oportunidad de revisar los pros y los contras con más detalle.
fuente
Las calificaciones de Amazon son engañosas debido a que las empresas juegan con el sistema. Cuando a los clientes se les ofrecen reembolsos y mercadería gratis a cambio de revisiones de 5 estrellas, las "estadísticas" de cuál es o significa el número de calificaciones se vuelven discutibles.
fuente
Usted hace un buen punto. Tomar la media de los números ordinales es algo engañoso. Cualquier resumen de varias clasificaciones se vería afectado por el hecho de que mi 3 subjetivo realmente puede ser igual a su 4. Por lo tanto, combinar diferentes puntajes individuales es probablemente el mayor problema. Interpretar el promedio de un 3 y un 4 como 3.5 no es tan atroz.
fuente