Qué hacer cuando las medias de dos muestras son significativamente diferentes pero la diferencia parece demasiado pequeña para importar

13

Tengo dos muestras ( en ambos casos). Las medias difieren en aproximadamente el doble del estándar combinado. dev. El valor resultante es aproximadamente 10. Si bien es bueno saber que he demostrado de manera concluyente que las medias no son las mismas, me parece que esto se debe a la gran n. Al observar los histogramas de los datos, ciertamente no creo que un valor p pequeño sea realmente representativo de los datos y, para ser honesto, no me siento cómodo citando. Probablemente estoy haciendo la pregunta equivocada. Lo que estoy pensando es: ok, los medios son diferentes, pero ¿eso realmente importa ya que las distribuciones comparten una superposición significativa?Tn70T

¿Es aquí donde las pruebas bayesianas son útiles? Si es así, dónde es un buen lugar para comenzar, un poco de búsqueda en Google no ha dado nada útil, pero no puedo hacer la pregunta correcta. Si esto es incorrecto, ¿alguien tiene alguna sugerencia? ¿O es simplemente un punto de discusión en oposición al análisis cuantitativo?

Jugador de bolos
fuente
Solo quiero agregar a todas las otras respuestas que su primera afirmación es incorrecta: NO ha demostrado de manera concluyente que los medios son diferentes . El valor p de una prueba t le indica si la probabilidad de observar sus datos o valores más extremos de los mismos es probable / improbable dada la hipótesis nula (que para la prueba t es , es decir, : { "Los medios son iguales"}), lo que no significa que los medios sean, de hecho, diferentes . Además, supongo que también realizó una prueba F para probar la igualdad de las variaciones antes de hacer la prueba t de varianza agrupada, ¿verdad? H 0μA=μBH0
Néstor
Su pregunta es muy buena ya que trae una distinción importante y muestra que realmente está pensando en sus datos en lugar de buscar algunas estrellas en una salida estadística y declararse hecho. Como señalan varias respuestas, la significación estadística no es lo mismo que significativo . Y cuando lo piensa, no pueden ser: ¿cómo sabría un procedimiento estadístico que una diferencia media estadísticamente significativa de 0.01 significa algo en el campo A, pero es insignificante en el campo B?
Wayne
Es justo que el lenguaje no fuera perfecto, pero cuando el valor p es como el que obtengo, tiendo a no ser demasiado exigente con las palabras. Hice una prueba F (y un gráfico QQ). Está lo suficientemente cerca para el jazz, como dicen.
Bowler
1
FWIW, si tus medios están separados por 2 SD, eso me parece una gran diferencia. Dependerá de su campo, por supuesto, pero esa es una diferencia que las personas notarían fácilmente a simple vista (por ejemplo, las alturas medias de hombres y mujeres de EE. UU. De 20 a 29 años difieren en aproximadamente 1.5 DE). OMI, si las distribuciones no no se superponga en absoluto, realmente no necesita hacer ningún análisis de datos; como mínimo, w / tan pequeño como 6, será <.05 si las distribuciones no se superponen. pNp
gung - Restablece a Monica
Estoy de acuerdo en que la diferencia es grande, aunque resultó totalmente irreverente.
Bowler

Respuestas:

12

Supongamos que denota la media de la primera población y denota la media de la segunda población. Parece que ha utilizado una prueba dos muestras para probar si . El resultado significativo implica que , pero la diferencia parece ser pequeña para su aplicación.μ1μ2tμ1=μ2μ1μ2

Lo que ha encontrado es el hecho de que estadísticamente significativo a menudo puede ser algo más que significativo para la aplicación . Si bien la diferencia puede ser estadísticamente significativa, aún puede no ser significativa .

Las pruebas bayesianas no resolverán ese problema; aún así, concluirá que existe una diferencia.

Sin embargo, podría haber una salida. Por ejemplo, para una hipótesis unilateral, podría decidir que si es unidades mayores que entonces esa sería una diferencia significativa que es lo suficientemente grande como para importar para su aplicación.μ1Δμ2

En ese caso, probaría si lugar de si . La estadística (suponiendo variaciones iguales) en ese caso sería donde es la estimación de desviación estándar agrupada. Bajo la hipótesis nula, esta estadística es -distribuidos con grados de libertad.μ1μ2Δμ1μ2=0t

T=x¯1x¯2Δsp1/n1+1/n2
sptn1+n22

Una forma fácil de llevar a cabo esta prueba es restar de sus observaciones de la primera población y luego realizar una prueba dos muestras unilateral regular .tΔt

MånsT
fuente
8

Es válido comparar varios enfoques, pero no con el objetivo de elegir el que favorezca nuestros deseos / creencias.

Mi respuesta a su pregunta es: es posible que dos distribuciones se superpongan mientras tienen medios diferentes, lo que parece ser su caso (pero necesitaríamos ver sus datos y contexto para proporcionar una respuesta más precisa).

Voy a ilustrar esto usando un par de enfoques para comparar medios normales .

1. pruebat

Considere dos muestras simuladas de tamaño de un y , entonces el valor es aproximadamente como en su caso (vea el código R a continuación).N ( 10 , 1 ) N ( 12 , 1 ) t 1070N(10,1)N(12,1)t10

rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)

set.seed(77)

# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")

# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)

# t test
t.test(dat1,dat2)

Sin embargo, las densidades muestran una superposición considerable. Pero recuerde que está probando una hipótesis sobre las medias, que en este caso son claramente diferentes pero, debido al valor de , hay una superposición de las densidades.σ

ingrese la descripción de la imagen aquí

2. Probabilidad de perfil deμ

Para obtener una definición de la probabilidad y probabilidad del perfil, consulte 1 y 2 .

En este caso, la probabilidad de perfil de de una muestra de tamaño media de muestra es simplemente .n ˉ x R p ( μ ) = exp [ - n ( ˉ x - μ ) 2 ]μnx¯Rp(μ)=exp[n(x¯μ)2]

Para los datos simulados, estos pueden calcularse en R de la siguiente manera

# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}

Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}

vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)

# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")

Como puede ver, los intervalos de probabilidad de y no se superponen en ningún nivel razonable.μ 2μ1μ2

3. Posterior de usando Jeffreys antesμ

Considere los Jeffreys anteriores de(μ,σ)

π(μ,σ)1σ2

La parte posterior de para cada conjunto de datos se puede calcular de la siguiente maneraμ

# Posterior of mu
library(mcmc)

lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]

# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")

Una vez más, los intervalos de credibilidad de los medios no se superponen a ningún nivel razonable.

En conclusión, puede ver cómo todos estos enfoques indican una diferencia significativa de medias (que es el interés principal), a pesar de la superposición de las distribuciones.

Un enfoque de comparación diferente

A juzgar por sus preocupaciones sobre la superposición de las densidades, otra cantidad de interés podría ser , la probabilidad de que la primera variable aleatoria sea más pequeña que la segunda variable. Esta cantidad puede estimarse de forma no paramétrica como en esta respuesta . Tenga en cuenta que no hay supuestos de distribución aquí. Para los datos simulados, este estimador es , mostrando cierta superposición en este sentido, mientras que las medias son significativamente diferentes. Por favor, eche un vistazo al código R que se muestra a continuación.0.8823825P(X<Y)0.8823825

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r ) 
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

nonpest(dat1,dat2)

Espero que esto ayude.

Comunidad
fuente
2
(+1) Gracias por una respuesta realmente útil sobre los métodos baysianos. Además, el enlace P (X <Y) responde a otro problema que me he estado preguntando en el mismo análisis.
Bowler
7

Respondiendo la pregunta correcta

ok, los medios son diferentes, pero ¿eso realmente importa ya que las distribuciones comparten una superposición significativa?

Cualquier prueba que pregunte si las medias grupales son diferentes, cuando funciona correctamente, le dirá si las medias son diferentes. No le dirá que las distribuciones de los datos en sí son diferentes, ya que esa es una pregunta diferente. Esa pregunta ciertamente depende de si las medias son diferentes, pero también de muchas otras cosas que podrían resumirse (incompletamente) como varianza, sesgo y curtosis.

Usted observa correctamente que la certeza acerca de dónde están las medias depende de la cantidad de datos que tiene para estimarlas, por lo que tener más datos le permitirá detectar diferencias de medias en distribuciones más superpuestas. Pero te preguntas si

como el pequeño valor p es realmente representativo de los datos

De hecho, no lo es, al menos no directamente. Y esto es por diseño. Es representativo (aproximadamente hablando) de la certeza que puede tener de que un par particular de estadísticas de muestra de los datos (no los datos en sí) son diferentes.

Si desea representar los datos en sí mismos de una manera más formal que simplemente mostrar los histogramas y probar los momentos de los mismos, quizás un par de gráficos de densidad podrían ser útiles. Más bien depende realmente del argumento para el que está utilizando la prueba.

Una versión bayesiana

En todos estos aspectos, las 'pruebas' de diferencia bayesianas y las pruebas T se comportarán de la misma manera porque están tratando de hacer lo mismo. Las únicas ventajas que puedo pensar para usar un enfoque bayesiano son: a) que será fácil hacer la prueba permitiendo posibles variaciones diferentes para cada grupo, yb) que se centrará en estimar el tamaño probable de la diferencia de medias en lugar de encontrar un valor p para alguna prueba de diferencia. Dicho esto, estas ventajas son bastante menores: por ejemplo, en b) siempre se puede informar un intervalo de confianza para la diferencia.

Las comillas anteriores sobre 'pruebas' son deliberadas. Ciertamente es posible hacer pruebas de hipótesis bayesianas, y la gente lo hace. Sin embargo, sugeriría que la ventaja comparativa del enfoque se centra en construir un modelo plausible de los datos y comunicar sus aspectos importantes con niveles apropiados de incertidumbre.

conjugadoprior
fuente
3

En primer lugar, esto no es un problema para fijar en las pruebas frecuentes. El problema radica en la hipótesis nula de que las medias son exactamente iguales. Por lo tanto, si las poblaciones difieren en los medios en cualquier cantidad pequeña y el tamaño de la muestra es lo suficientemente grande, la posibilidad de rechazar esta hipótesis nula es muy alta. Por lo tanto, el valor p para su prueba resultó ser muy pequeño. El culpable es la elección de la hipótesis nula. Elija d> 0 y tome la hipótesis nula de que las medias difieren en menos de d en valor absoluto en menos de d. Elija d para que la diferencia real tenga que ser satisfactoriamente grande para rechazar. Tu problema desaparece. Las pruebas bayesianas no resuelven su problema si insiste en una hipótesis nula de igualdad exacta de medios.

Michael R. Chernick
fuente
Estaba escribiendo mi respuesta al mismo tiempo que las otras dos.
Michael R. Chernick