Prueba de hipótesis en datos continuos inflados a cero

10

Le agradecería mucho su consejo sobre el siguiente problema:

Tengo un gran conjunto de datos continuo con muchos ceros (~ 95%) y necesito encontrar la mejor manera de probar si ciertos subconjuntos son "interesantes", es decir, no parecen extraídos de la misma distribución que el resto. La inflación cero proviene del hecho de que cada punto de datos se basa en una medición de recuento con ceros verdaderos y de muestreo, pero el resultado es continuo ya que tiene en cuenta algunos otros parámetros ponderados por el recuento (y si el recuento es cero, el resultado también es cero).

Cuál sería la mejor forma de hacer esto? Tengo la sensación de que Wilcoxon e incluso las pruebas de permutación de fuerza bruta son inadecuadas ya que se vuelven sesgadas por estos ceros. Centrarse en mediciones distintas de cero también elimina los ceros verdaderos que son extremadamente importantes. Los modelos con cero inflado para los datos de conteo están bien desarrollados, pero no son adecuados para mi caso.

Consideré ajustar una distribución Tweedie a los datos y luego ajustar una glm en respuesta = f (subset_label). Teóricamente, esto parece factible, pero me pregunto si (a) esto es exagerado y (b) todavía supondría implícitamente que todos los ceros son ceros de muestra, es decir, ¿estarían sesgados de la misma manera (en el mejor de los casos) como una permutación?

Intuitivamente, parece tener algún tipo de diseño jerárquico que combina una estadística binomial basada en la proporción de ceros y, por ejemplo, una estadística de Wilcoxon calculada en valores distintos de cero (o, mejor aún, valores distintos de cero complementados con una fracción de ceros basados ​​en algunos anteriores). Suena como una red bayesiana ...

Espero no ser el primero en tener este problema, por lo que estaría muy agradecido si pudiera señalarme las técnicas existentes adecuadas ...

¡Muchas gracias!

a11msp
fuente
Actualizar. Hasta ahora, he encontrado este documento que aborda un problema similar al mío: maths.otago.ac.nz/home/downloads/david_fletcher/…
a11msp
Me pregunto si esta aproximación extremadamente simplificada tendría sentido, dado que los ceros forman la mayoría absoluta: 1) encuentre la proporción de ceros en cada subconjunto. 2) suponga que en el subconjunto con el menor número de ceros todos los ceros son verdaderos. 3) de cada subconjunto, elimine la proporción de ceros igual a la proporción de ceros en el conjunto de datos más "cero rico". 4) ejecute estadísticas no paramétricas estándar en este conjunto de datos modificado.
a11msp
El hipervínculo al papel en su primer comentario parece estar muerto. ¿Puedes proporcionar una cita en su lugar?
coip
1
Gracias por señalar esto: doi.org/10.1007/s10651-005-6817-1
a11msp

Respuestas:

9

@msp, creo que está viendo un modelo de dos etapas en ese archivo adjunto (no tuve tiempo de leerlo), pero el tipo de datos con los que trabajo mucho son datos continuos inflados cero. Para ajustar un modelo paramétrico a estos datos (para permitir pruebas de hipótesis), puede ajustar una etapa doble pero luego tiene dos modelos (Y es el objetivo y X son covariables): P (Y = 0 | X) y P (Y | X; Y> 0). Tienes que usar la simulación para "juntarlos" El libro de Gelmans (y el paquete de brazo en R) muestra este proceso para este modelo exacto (usando regresión logística y regresión lineal ordinaria con un enlace de registro).

La otra opción que he visto y me gusta más es ajustar una regresión gamma inflada a cero, que es la misma que la anterior (pero gamma como error en lugar de guassian) y puede reunirlos para pruebas de hipótesis en P (Y | X) . No sé cómo hacer esto en R, pero puedes hacerlo en SAS NLMIXED. Ver esta publicación , funciona bien.

B_Miner
fuente
@B_Miner, muchas gracias por tu respuesta, lo siento, no tengo suficiente calificación para votar ... ¡Echaré un vistazo a los enlaces! Mi única preocupación acerca de los modelos condicionales es que postulan que los ceros no pueden pertenecer al segundo componente (continuo), ¿estoy en lo cierto? ¿Mi configuración no se siente un poco más como un modelo mixto? ¿Qué piensas?
a11msp
Ahora he replicado el enfoque de dos etapas propuesto en el libro Gelman. Si subset_factor (con 25 niveles) sirve como etiqueta de subconjunto, el primer paso es fit1 = glm (respuesta ~ subset_factor, family = binomial); y el segundo paso es fit2 = lm (respuesta ~ subset_factor, subset = response> 0). Luego puedo ejecutar simulaciones tal como se describen para obtener la distribución de los valores de respuesta ajustados para cada nivel de factor. Sin embargo, todavía no estoy seguro de cómo traducir esto a lo que necesito, que es (a) la probabilidad de que los coeficientes no sean cero y (b) la importancia de la diferencia entre coeficientes en diferentes niveles de factores.
a11msp
El enfoque de dos etapas (método Gelman de dos modelos separados) supone dos poblaciones, las de cero y las de arriba.
B_Miner
... entonces, ¿sería apropiado decir simplemente que si el impacto de algún nivel de factor es significativo (y significativamente diferente del de algún otro nivel de factor) en cualquiera de los dos modelos en el método de Gelman, entonces es significativo en general?
a11msp
1
Sí, el enfoque de dos etapas (método Gelman de dos modelos separados) supone dos poblaciones, aquellas en cero y aquellas> 0. Con respecto a las pruebas de hipótesis, ¿puede enmarcarlas en términos de los valores pronosticados para los niveles variables de las entradas y construir empíricamente? intervalos de confianza relacionados con las simulaciones para cada uno? Para las pruebas de hipótesis para el coeficiente! = 0, debe probar esto por separado para ambos modelos.
B_Miner
2

Se usa un enfoque similar al documento de Fletcher en las pruebas de marketing, donde podemos separar arbitrariamente los efectos de las intervenciones (como la publicidad) en (a) un cambio en el número que compra la marca (es decir, la proporción de ceros) y (b) a cambio en la frecuencia de compra de la banda (las ventas dadas ocurren en absoluto). Este es un enfoque sólido y conceptualmente significativo en el contexto de marketing y en el contexto ecológico que Fletcher discute. De hecho, esto puede extenderse a (c) un cambio en el tamaño de cada compra.

zbicyclist
fuente
¡Gracias! Me pregunto si conoce una implementación existente de esto.
a11msp
1

Puede tratar el número exacto de ceros desconocido, pero limitado entre 0 y el número observado de ceros. Esto seguramente se puede manejar utilizando una formulación bayesiana del modelo. Quizás también se pueda ajustar un método de imputación múltiple para variar adecuadamente los pesos (entre 0 y 1) de las observaciones cero ...

GaBorgulya
fuente