prueba t en datos muy sesgados

18

Tengo un conjunto de datos con decenas de miles de observaciones de datos de costos médicos. Estos datos están muy sesgados a la derecha y tienen muchos ceros. Se ve así para dos grupos de personas (en este caso, dos grupos de edad con> 3000 obs cada uno):

 Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
 0.0      0.0      0.0   4536.0    302.6 395300.0 
Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
 0.0      0.0      0.0   4964.0    423.8 721700.0 

Si realizo la prueba t de Welch con estos datos, obtengo un resultado:

Welch Two Sample t-test

data:  x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2185.896  1329.358
sample estimates:
mean of x mean of y 
 4536.186  4964.455 

Sé que no es correcto usar una prueba t en estos datos, ya que es muy poco normal. Sin embargo, si uso una prueba de permutación para la diferencia de las medias, obtengo casi el mismo valor p todo el tiempo (y se acerca con más iteraciones).

Usando el paquete perm en R y permTS con Monte Carlo exacto

    Exact Permutation Test Estimated by Monte Carlo

data:  x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y 
      -428.2691 

p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
 0.5117552 0.7277040 

¿Por qué la estadística de prueba de permutación sale tan cerca del valor t.test? Si tomo registros de los datos, obtengo un valor p t.test de 0.28 y lo mismo de la prueba de permutación. Pensé que los valores de la prueba t serían más basura de lo que estoy obteniendo aquí. Esto es cierto para muchos otros conjuntos de datos que tengo como este y me pregunto por qué la prueba t parece estar funcionando cuando no debería.

Mi preocupación aquí es que los costos individuales no son iid. Hay muchos subgrupos de personas con distribuciones de costos muy diferentes (mujeres versus hombres, afecciones crónicas, etc.) que parecen anular el requisito de iid para el teorema del límite central, o no debería preocuparme. ¿sobre eso?

Chris
fuente
¿Cómo sucede que tanto el valor mínimo como la mediana de sus datos son cero?
Alecos Papadopoulos
Más de la mitad de los valores son cero, lo que indica que la mitad de las personas no recibieron atención médica ese año.
Chris
¿Y por qué crees que la prueba de permutación debería ser diferente? (si ambos grupos tienen una distribución similarmente no normal)
FairMiles
Tenga en cuenta que iid son dos supuestos separados. El primero es "independiente". El segundo es 'idénticamente distribuido'. Parece sugerir que las observaciones no están "distribuidas de manera idéntica". Esto no debería afectar las respuestas proporcionadas hasta ahora, ya que todavía podemos suponer que todas las observaciones provienen de una gran mezcla de distribuciones. Pero si cree que las observaciones no son independientes, ese es un tema muy diferente y potencialmente más difícil.
zkurtz

Respuestas:

29

Ni la prueba t ni la prueba de permutación tienen mucho poder para identificar una diferencia de medias entre dos distribuciones tan extraordinariamente sesgadas. Por lo tanto, ambos dan valores p anodinos que no indican ningún significado en absoluto. El problema no es que parezcan estar de acuerdo; es que, debido a que les resulta difícil detectar cualquier diferencia, ¡simplemente no pueden estar en desacuerdo!


Para cierta intuición, considere lo que sucedería si ocurriera un cambio en un solo valor en un conjunto de datos. Supongamos que, por ejemplo, no se hubiera producido un máximo de 721.700 en el segundo conjunto de datos. La media habría caído en aproximadamente 721700/3000, que es aproximadamente 240. Sin embargo, la diferencia en las medias es solo 4964-4536 = 438, ni siquiera el doble. Eso sugiere (aunque no prueba) que cualquier comparación de las medias no encontraría la diferencia significativa.

Sin embargo, podemos verificar que la prueba t no es aplicable. Generemos algunos conjuntos de datos con las mismas características estadísticas que estos. Para hacerlo, he creado mezclas en las que

  • 5/8 de los datos son ceros en cualquier caso.
  • Los datos restantes tienen una distribución lognormal.
  • Los parámetros de esa distribución están dispuestos para reproducir las medias observadas y los terceros cuartiles.

Resulta en estas simulaciones que los valores máximos tampoco están lejos de los máximos informados.

Repitamos el primer conjunto de datos 10,000 veces y rastreemos su media. (Los resultados serán casi los mismos cuando hagamos esto para el segundo conjunto de datos). El histograma de estas medias estima la distribución muestral de la media. La prueba t es válida cuando esta distribución es aproximadamente Normal; la medida en que se desvía de la Normalidad indica la medida en que la distribución t de Student errará. Entonces, como referencia, también dibujé (en rojo) el PDF de la distribución Normal ajustado a estos resultados.

Histograma 1

No podemos ver muchos detalles porque hay algunos grandes valores atípicos. (Esa es una manifestación de esta sensibilidad de los medios que mencioné). Hay 123 de ellos, 1.23%, por encima de 10,000. Centrémonos en el resto para que podamos ver los detalles y porque estos valores atípicos pueden resultar de la lognormalidad supuesta de la distribución, que no es necesariamente el caso para el conjunto de datos original.

Histograma 2

Eso todavía está fuertemente sesgado y se desvía visiblemente de la aproximación Normal, proporcionando una explicación suficiente para los fenómenos relatados en la pregunta. También nos da una idea de cuán grande podría detectarse una diferencia de medias mediante una prueba: tendría que ser de alrededor de 3000 o más para parecer significativa. Por el(3000/428)2=50 contrario, la diferencia real de 428 podría detectarse siempre que tuviera aproximadamente veces más datos (en cada grupo). Con 50 veces más datos, calculo que el poder de detectar esta diferencia a un nivel de significancia del 5% sería de alrededor de 0.4 (lo cual no es bueno, pero al menos tendría una posibilidad)


Aquí está el Rcódigo que produjo estas cifras.

#
# Generate positive random values with a median of 0, given Q3,
# and given mean. Make a proportion 1-e of them true zeros.
#
rskew <- function(n, x.mean, x.q3, e=3/8) {
  beta <- qnorm(1 - (1/4)/e)
  gamma <- 2*(log(x.q3) - log(x.mean/e))
  sigma <- sqrt(beta^2 - gamma) + beta
  mu <- log(x.mean/e) - sigma^2/2
  m <- floor(n * e)
  c(exp(rnorm(m, mu, sigma)), rep(0, n-m))
}
#
# See how closely the summary statistics are reproduced.
# (The quartiles will be close; the maxima not too far off;
# the means may differ a lot, though.)
#
set.seed(23)
x <- rskew(3300, 4536, 302.6)
y <- rskew(3400, 4964, 423.8)
summary(x)
summary(y)
#
# Estimate the sampling distribution of the mean.
#
set.seed(17)
sim.x <- replicate(10^4, mean(rskew(3367, 4536, 302.6)))
hist(sim.x, freq=FALSE, ylim=c(0, dnorm(0, sd=sd(sim.x))))
curve(dnorm(x, mean(sim.x), sd(sim.x)), add=TRUE, col="Red")
hist(sim.x[sim.x < 10000], xlab="x", freq=FALSE)
curve(dnorm(x, mean(sim.x), sd(sim.x)), add=TRUE, col="Red")
#
# Can a t-test detect a difference with more data?
#
set.seed(23)
n.factor <- 50
z <- replicate(10^3, {
  x <- rskew(3300*n.factor, 4536, 302.6)
  y <- rskew(3400*n.factor, 4964, 423.8)
  t.test(x,y)$p.value
})
hist(z)
mean(z < .05) # The estimated power at a 5% significance level
whuber
fuente
1
Para ver un ejemplo de un conjunto de datos muy sesgado en el que la prueba t es aplicable (debido a la gran cantidad de datos), consulte stats.stackexchange.com/questions/110418/… . Estos dos casos juntos muestran que no hay una respuesta simple a la pregunta: debe tener en cuenta tanto la distribución de los datos como la cantidad de datos al decidir si la prueba t será significativa y precisa.
whuber
3
Me ha favorecido esta pregunta con la esperanza de poder encontrarla nuevamente cuando me enfrente a personas que piensan que n = 30 o n = 300 es suficiente para seguir adelante y asumir que las medias de muestra se distribuyen normalmente (y así sucesivamente). Tengo buenos ejemplos simulados, pero es bueno mostrar que también es un problema con datos reales.
Glen_b: reinstala a Mónica el
1
+1, pero me pregunto cuál sería su recomendación práctica en una situación como esa. ¿Debería tratarse de usar una prueba de permutación basada en alguna otra estadística en lugar de la media (quizás algún cuantil alto)? ¿Debería intentar aplicar alguna transformación antes de ejecutar pruebas estándar en los medios? ¿O debería uno renunciar a cualquier esperanza de detectar una diferencia significativa entre dos muestras?
ameba dice Reinstate Monica
@amoeba Si la preocupación es probar las diferencias en los medios, entonces la prueba de permutación no será de ayuda: no encontrará una diferencia significativa aquí. Si prueba alguna otra estadística, entonces no está probando la media (¡lo cual es particularmente relevante para los datos de costos!), Por lo que si eso puede recomendarse depende de los objetivos.
whuber
4

Cuando n es grande (como 300, incluso mucho menos que 3000), la prueba t es esencialmente la misma que la prueba z. Es decir, la prueba t se convierte en nada más que una aplicación del teorema del límite central, que dice que el MEDIO para cada uno de sus dos grupos está distribuido casi exactamente de manera normal (incluso si las observaciones subyacentes a los dos medios están muy lejos de ser normalmente ¡repartido!). Esta es también la razón por la que su tabla t típica no se molesta en mostrar valores para n mayores que 1000 (por ejemplo, esta tabla t) . Por lo tanto, no me sorprende ver que está obteniendo resultados tan buenos.

Editar: Parece que he subestimado la extremidad de la asimetría y su importancia. Si bien mi punto anterior tiene mérito en circunstancias menos extremas, la respuesta de Whuber a la pregunta es mucho mejor en general.

zkurtz
fuente
2
Cuando la asimetría es extrema, como lo atestiguan las estadísticas citadas, no tenemos certeza de que la distribución muestral de la media de 300 o incluso 3000 muestras esté cerca de lo normal. Es por eso que el OP está sorprendido. Contrarresta eso diciendo que no está sorprendido, pero eso parece reducirse a la intuición de una persona en comparación con la de otra. ¿Qué argumento objetivo puede proporcionar para estos datos que demuestren que 300 (o 3000) es una muestra lo suficientemente grande como para que la prueba t funcione bien?
whuber
Gran punto Admito que si los datos están suficientemente sesgados, mi argumento falla. Entonces, la pregunta para mí es, qué tan sesgada están los datos, y si existe un resultado formal que relacione la asimetría con el tamaño de muestra requerido.
zkurtz
1
He publicado una respuesta a esa pregunta. Sabemos (al menos aproximadamente) cuán sesgados están los datos en función de las estadísticas resumidas en la pregunta. Ese sesgo es tan fuerte que ni 300, ni 3000, ni siquiera 30,000 observaciones por grupo harán que la distribución muestral de la media sea "casi exactamente normal". Probablemente necesite alrededor de 300,000 más o menos antes de que ese reclamo sea plausible. Por lo tanto, debemos buscar una explicación diferente de por qué las dos pruebas están de acuerdo. El mío es que ninguno de los dos se "porta bien" en lugar de que ambos se porten bien.
whuber
0

Sé que esta respuesta es muy tarde. Sin embargo, estoy obteniendo un doctorado en investigación de servicios de salud, por lo que trabajo mucho con los datos de atención médica, incluidos los datos de costos.

No sé qué datos tenía el OP. Si se tratara de datos transversales, lo más probable es que fuera justificadamente IID. La independencia significa que cada unidad, por lo que cada persona, es independiente. Eso es muy probablemente justificable. En cuanto a la distribución idéntica, los datos se pueden modelar como todos provenientes, por ejemplo, de una distribución gamma en un modelo lineal generalizado con un enlace de registro. Esto es lo que la gente hace comúnmente en la práctica. O si quieres ponerte elegante, probablemente haya modelos de obstáculo (populares en econometría) que se ocupan de los ceros en exceso. Que, por cierto, son bastante comunes en el gasto sanitario. El OP es técnicamente correcto porque los datos no están necesariamente distribuidos de manera idéntica, por ejemplo, la media y la varianza cambiarán con la edad, pero es una suposición viable en modelos de regresión múltiple.

Si cada persona estuvo en el conjunto de datos durante más de un año, entonces los datos no serían IID. Hay modelos más complejos disponibles para eso. Una relativamente simple de esas probablemente sería una estimación generalizada de las ecuaciones, la distribución gamma y el enlace de registro, suponiendo una correlación de trabajo intercambiable. O, si estos datos provienen de encuestas públicas, NO hay una probabilidad igual de ser muestreados: muchas de esas encuestas entrevistan a varias personas en cada hogar, y también estratifican a la población y sobremuestrean algunos grupos (por ejemplo, minorías raciales). El usuario tendría que corregir eso.

No uso pruebas t, especialmente no para datos de observación. Hay demasiados factores de confusión, por lo que debería ajustarlos en un modelo lineal (generalizado). Por lo tanto, no puedo comentar sobre las preguntas relacionadas específicamente con las pruebas t.

Weiwen Ng
fuente