¿Cómo se debe interpretar la comparación de medias de diferentes tamaños de muestra?

49

Tome el caso de las clasificaciones de libros en un sitio web. El libro A está calificado por 10,000 personas con una calificación promedio de 4.25 y la varianza . Del mismo modo, el Libro B está calificado por 100 personas y tiene una calificación de 4.5 con σ = 0.25 .σ=0.5σ=0.25

Ahora, debido al gran tamaño de la muestra del Libro A, la 'media estabilizada' a 4.25. Ahora, para 100 personas, puede ser que si más personas leen el Libro B, la calificación promedio pueda caer a 4 o 4.25.

  • ¿Cómo debería uno interpretar la comparación de medias de diferentes muestras y cuáles son las mejores conclusiones que uno puede / debe sacar?

Por ejemplo, ¿podemos decir realmente que el Libro B es mejor que el Libro A.

Doctor
fuente
¿Está específicamente interesado en el contexto de calificación?
Jeromy Anglim
@ JeromyAnglim - Hmmm ... probablemente. No es seguro. Ese es el ejemplo más común. ¿Qué tenías en mente?
Doctorado
2
Vea mi respuesta con respecto a los sistemas de clasificación bayesianos a continuación. Los contextos de calificación aplicados generalmente tienen cientos o miles de objetos que se califican, y el objetivo a menudo es formar la mejor estimación de la calificación del objeto dada la información disponible. Esto es muy diferente a una comparación simple de dos grupos, como puede encontrar en un experimento médico con dos grupos.
Jeromy Anglim

Respuestas:

57

Nn

Para aclarar mi punto sobre el poder, aquí hay una simulación muy simple escrita para R:

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

N=100n1=50n2=50n1=75n2=25n1=90n2=10. Tenga en cuenta además que el proceso estandarizado de diferencia de medias / generación de datos fue el mismo en todos los casos. Sin embargo, mientras que la prueba fue 'significativa' el 70% del tiempo para la muestra 50-50, la potencia fue del 56% con 75-25 y solo del 33% cuando los tamaños de los grupos fueron 90-10.

Pienso en esto por analogía. Si desea conocer el área de un rectángulo, y el perímetro es fijo, entonces el área se maximizará si la longitud y el ancho son iguales (es decir, si el rectángulo es un cuadrado ). Por otro lado, a medida que la longitud y el ancho divergen (a medida que el rectángulo se alarga), el área se contrae.

gung - Restablece a Monica
fuente
el poder se maximiza ?? No estoy muy seguro de entenderlo. ¿Podría dar un ejemplo si es posible?
PhD
55
La razón por la que la prueba t puede manejar tamaños de muestra desiguales es porque tiene en cuenta el error estándar de las estimaciones de las medias para cada grupo. Esa es la desviación estándar de la distribución del grupo dividida por la raíz cuadrada del tamaño de la muestra del grupo. El grupo con el tamaño de muestra mucho más grande tendrá el error estándar más pequeño si las desviaciones estándar de la población son iguales o casi iguales.
Michael Chernick
@gung: no estoy seguro de saber realmente en qué 'lenguaje' está escrita esta simulación. Estoy adivinando 'R'? y todavía estoy tratando de descifrarlo :)
PhD
2
El código es para R. Lo he comentado para que sea más fácil de seguir. Puede copiarlo y pegarlo en R y ejecutarlo usted mismo, si tiene R; la set.seed()función asegurará que obtenga un resultado idéntico. Avísame si todavía es demasiado difícil de seguir.
gung - Restablece a Monica
8
N=n1+n2n1×n2n1n2
10

Además de la respuesta mencionada por @gung que lo refiere a la prueba t, parece que podría estar interesado en los sistemas de clasificación bayesianos (por ejemplo, aquí hay una discusión ). Los sitios web pueden usar dichos sistemas para clasificar los artículos de pedido que varían en la cantidad de votos recibidos. Esencialmente, tales sistemas funcionan asignando una calificación que es un compuesto de la calificación promedio de todos los ítems más la media de la muestra de calificaciones para el objeto específico. A medida que aumenta el número de clasificaciones, aumenta el peso asignado a la media del objeto y disminuye el peso asignado a la clasificación media de todos los elementos. Quizás revise los promedios bayesianos .

Por supuesto, las cosas pueden volverse mucho más complejas a medida que lidias con una amplia gama de problemas, como fraude en las votaciones, cambios a lo largo del tiempo, etc.

Jeromy Anglim
fuente
Dulce. Nunca lo oí. Definitivamente lo investigaré. Tal vez eso es lo que busco, después de todo :)
PhD