Tome el caso de las clasificaciones de libros en un sitio web. El libro A está calificado por 10,000 personas con una calificación promedio de 4.25 y la varianza . Del mismo modo, el Libro B está calificado por 100 personas y tiene una calificación de 4.5 con σ = 0.25 .
Ahora, debido al gran tamaño de la muestra del Libro A, la 'media estabilizada' a 4.25. Ahora, para 100 personas, puede ser que si más personas leen el Libro B, la calificación promedio pueda caer a 4 o 4.25.
- ¿Cómo debería uno interpretar la comparación de medias de diferentes muestras y cuáles son las mejores conclusiones que uno puede / debe sacar?
Por ejemplo, ¿podemos decir realmente que el Libro B es mejor que el Libro A.
t-test
mean
sample-size
Doctor
fuente
fuente
Respuestas:
Para aclarar mi punto sobre el poder, aquí hay una simulación muy simple escrita para R:
Pienso en esto por analogía. Si desea conocer el área de un rectángulo, y el perímetro es fijo, entonces el área se maximizará si la longitud y el ancho son iguales (es decir, si el rectángulo es un cuadrado ). Por otro lado, a medida que la longitud y el ancho divergen (a medida que el rectángulo se alarga), el área se contrae.
fuente
set.seed()
función asegurará que obtenga un resultado idéntico. Avísame si todavía es demasiado difícil de seguir.Además de la respuesta mencionada por @gung que lo refiere a la prueba t, parece que podría estar interesado en los sistemas de clasificación bayesianos (por ejemplo, aquí hay una discusión ). Los sitios web pueden usar dichos sistemas para clasificar los artículos de pedido que varían en la cantidad de votos recibidos. Esencialmente, tales sistemas funcionan asignando una calificación que es un compuesto de la calificación promedio de todos los ítems más la media de la muestra de calificaciones para el objeto específico. A medida que aumenta el número de clasificaciones, aumenta el peso asignado a la media del objeto y disminuye el peso asignado a la clasificación media de todos los elementos. Quizás revise los promedios bayesianos .
Por supuesto, las cosas pueden volverse mucho más complejas a medida que lidias con una amplia gama de problemas, como fraude en las votaciones, cambios a lo largo del tiempo, etc.
fuente