Tengo un conjunto de datos con decenas de miles de observaciones de datos de costos médicos. Estos datos están muy sesgados a la derecha y tienen muchos ceros. Se ve así para dos grupos de personas (en este caso, dos grupos de edad con> 3000 obs cada uno):
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4536.0 302.6 395300.0
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4964.0 423.8 721700.0
Si realizo la prueba t de Welch con estos datos, obtengo un resultado:
Welch Two Sample t-test
data: x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2185.896 1329.358
sample estimates:
mean of x mean of y
4536.186 4964.455
Sé que no es correcto usar una prueba t en estos datos, ya que es muy poco normal. Sin embargo, si uso una prueba de permutación para la diferencia de las medias, obtengo casi el mismo valor p todo el tiempo (y se acerca con más iteraciones).
Usando el paquete perm en R y permTS con Monte Carlo exacto
Exact Permutation Test Estimated by Monte Carlo
data: x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y
-428.2691
p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
0.5117552 0.7277040
¿Por qué la estadística de prueba de permutación sale tan cerca del valor t.test? Si tomo registros de los datos, obtengo un valor p t.test de 0.28 y lo mismo de la prueba de permutación. Pensé que los valores de la prueba t serían más basura de lo que estoy obteniendo aquí. Esto es cierto para muchos otros conjuntos de datos que tengo como este y me pregunto por qué la prueba t parece estar funcionando cuando no debería.
Mi preocupación aquí es que los costos individuales no son iid. Hay muchos subgrupos de personas con distribuciones de costos muy diferentes (mujeres versus hombres, afecciones crónicas, etc.) que parecen anular el requisito de iid para el teorema del límite central, o no debería preocuparme. ¿sobre eso?
fuente
Respuestas:
Ni la prueba t ni la prueba de permutación tienen mucho poder para identificar una diferencia de medias entre dos distribuciones tan extraordinariamente sesgadas. Por lo tanto, ambos dan valores p anodinos que no indican ningún significado en absoluto. El problema no es que parezcan estar de acuerdo; es que, debido a que les resulta difícil detectar cualquier diferencia, ¡simplemente no pueden estar en desacuerdo!
Para cierta intuición, considere lo que sucedería si ocurriera un cambio en un solo valor en un conjunto de datos. Supongamos que, por ejemplo, no se hubiera producido un máximo de 721.700 en el segundo conjunto de datos. La media habría caído en aproximadamente 721700/3000, que es aproximadamente 240. Sin embargo, la diferencia en las medias es solo 4964-4536 = 438, ni siquiera el doble. Eso sugiere (aunque no prueba) que cualquier comparación de las medias no encontraría la diferencia significativa.
Sin embargo, podemos verificar que la prueba t no es aplicable. Generemos algunos conjuntos de datos con las mismas características estadísticas que estos. Para hacerlo, he creado mezclas en las que
Resulta en estas simulaciones que los valores máximos tampoco están lejos de los máximos informados.
Repitamos el primer conjunto de datos 10,000 veces y rastreemos su media. (Los resultados serán casi los mismos cuando hagamos esto para el segundo conjunto de datos). El histograma de estas medias estima la distribución muestral de la media. La prueba t es válida cuando esta distribución es aproximadamente Normal; la medida en que se desvía de la Normalidad indica la medida en que la distribución t de Student errará. Entonces, como referencia, también dibujé (en rojo) el PDF de la distribución Normal ajustado a estos resultados.
No podemos ver muchos detalles porque hay algunos grandes valores atípicos. (Esa es una manifestación de esta sensibilidad de los medios que mencioné). Hay 123 de ellos, 1.23%, por encima de 10,000. Centrémonos en el resto para que podamos ver los detalles y porque estos valores atípicos pueden resultar de la lognormalidad supuesta de la distribución, que no es necesariamente el caso para el conjunto de datos original.
Eso todavía está fuertemente sesgado y se desvía visiblemente de la aproximación Normal, proporcionando una explicación suficiente para los fenómenos relatados en la pregunta. También nos da una idea de cuán grande podría detectarse una diferencia de medias mediante una prueba: tendría que ser de alrededor de 3000 o más para parecer significativa. Por el( 3,000 / 428 )2= 50 contrario, la diferencia real de 428 podría detectarse siempre que tuviera aproximadamente veces más datos (en cada grupo). Con 50 veces más datos, calculo que el poder de detectar esta diferencia a un nivel de significancia del 5% sería de alrededor de 0.4 (lo cual no es bueno, pero al menos tendría una posibilidad)
Aquí está el
R
código que produjo estas cifras.fuente
Cuando n es grande (como 300, incluso mucho menos que 3000), la prueba t es esencialmente la misma que la prueba z. Es decir, la prueba t se convierte en nada más que una aplicación del teorema del límite central, que dice que el MEDIO para cada uno de sus dos grupos está distribuido casi exactamente de manera normal (incluso si las observaciones subyacentes a los dos medios están muy lejos de ser normalmente ¡repartido!). Esta es también la razón por la que su tabla t típica no se molesta en mostrar valores para n mayores que 1000 (por ejemplo, esta tabla t) . Por lo tanto, no me sorprende ver que está obteniendo resultados tan buenos.
Editar: Parece que he subestimado la extremidad de la asimetría y su importancia. Si bien mi punto anterior tiene mérito en circunstancias menos extremas, la respuesta de Whuber a la pregunta es mucho mejor en general.
fuente
Sé que esta respuesta es muy tarde. Sin embargo, estoy obteniendo un doctorado en investigación de servicios de salud, por lo que trabajo mucho con los datos de atención médica, incluidos los datos de costos.
No sé qué datos tenía el OP. Si se tratara de datos transversales, lo más probable es que fuera justificadamente IID. La independencia significa que cada unidad, por lo que cada persona, es independiente. Eso es muy probablemente justificable. En cuanto a la distribución idéntica, los datos se pueden modelar como todos provenientes, por ejemplo, de una distribución gamma en un modelo lineal generalizado con un enlace de registro. Esto es lo que la gente hace comúnmente en la práctica. O si quieres ponerte elegante, probablemente haya modelos de obstáculo (populares en econometría) que se ocupan de los ceros en exceso. Que, por cierto, son bastante comunes en el gasto sanitario. El OP es técnicamente correcto porque los datos no están necesariamente distribuidos de manera idéntica, por ejemplo, la media y la varianza cambiarán con la edad, pero es una suposición viable en modelos de regresión múltiple.
Si cada persona estuvo en el conjunto de datos durante más de un año, entonces los datos no serían IID. Hay modelos más complejos disponibles para eso. Una relativamente simple de esas probablemente sería una estimación generalizada de las ecuaciones, la distribución gamma y el enlace de registro, suponiendo una correlación de trabajo intercambiable. O, si estos datos provienen de encuestas públicas, NO hay una probabilidad igual de ser muestreados: muchas de esas encuestas entrevistan a varias personas en cada hogar, y también estratifican a la población y sobremuestrean algunos grupos (por ejemplo, minorías raciales). El usuario tendría que corregir eso.
No uso pruebas t, especialmente no para datos de observación. Hay demasiados factores de confusión, por lo que debería ajustarlos en un modelo lineal (generalizado). Por lo tanto, no puedo comentar sobre las preguntas relacionadas específicamente con las pruebas t.
fuente