Le agradecería mucho su consejo sobre el siguiente problema:
Tengo un gran conjunto de datos continuo con muchos ceros (~ 95%) y necesito encontrar la mejor manera de probar si ciertos subconjuntos son "interesantes", es decir, no parecen extraídos de la misma distribución que el resto. La inflación cero proviene del hecho de que cada punto de datos se basa en una medición de recuento con ceros verdaderos y de muestreo, pero el resultado es continuo ya que tiene en cuenta algunos otros parámetros ponderados por el recuento (y si el recuento es cero, el resultado también es cero).
Cuál sería la mejor forma de hacer esto? Tengo la sensación de que Wilcoxon e incluso las pruebas de permutación de fuerza bruta son inadecuadas ya que se vuelven sesgadas por estos ceros. Centrarse en mediciones distintas de cero también elimina los ceros verdaderos que son extremadamente importantes. Los modelos con cero inflado para los datos de conteo están bien desarrollados, pero no son adecuados para mi caso.
Consideré ajustar una distribución Tweedie a los datos y luego ajustar una glm en respuesta = f (subset_label). Teóricamente, esto parece factible, pero me pregunto si (a) esto es exagerado y (b) todavía supondría implícitamente que todos los ceros son ceros de muestra, es decir, ¿estarían sesgados de la misma manera (en el mejor de los casos) como una permutación?
Intuitivamente, parece tener algún tipo de diseño jerárquico que combina una estadística binomial basada en la proporción de ceros y, por ejemplo, una estadística de Wilcoxon calculada en valores distintos de cero (o, mejor aún, valores distintos de cero complementados con una fracción de ceros basados en algunos anteriores). Suena como una red bayesiana ...
Espero no ser el primero en tener este problema, por lo que estaría muy agradecido si pudiera señalarme las técnicas existentes adecuadas ...
¡Muchas gracias!
fuente
Respuestas:
@msp, creo que está viendo un modelo de dos etapas en ese archivo adjunto (no tuve tiempo de leerlo), pero el tipo de datos con los que trabajo mucho son datos continuos inflados cero. Para ajustar un modelo paramétrico a estos datos (para permitir pruebas de hipótesis), puede ajustar una etapa doble pero luego tiene dos modelos (Y es el objetivo y X son covariables): P (Y = 0 | X) y P (Y | X; Y> 0). Tienes que usar la simulación para "juntarlos" El libro de Gelmans (y el paquete de brazo en R) muestra este proceso para este modelo exacto (usando regresión logística y regresión lineal ordinaria con un enlace de registro).
La otra opción que he visto y me gusta más es ajustar una regresión gamma inflada a cero, que es la misma que la anterior (pero gamma como error en lugar de guassian) y puede reunirlos para pruebas de hipótesis en P (Y | X) . No sé cómo hacer esto en R, pero puedes hacerlo en SAS NLMIXED. Ver esta publicación , funciona bien.
fuente
Se usa un enfoque similar al documento de Fletcher en las pruebas de marketing, donde podemos separar arbitrariamente los efectos de las intervenciones (como la publicidad) en (a) un cambio en el número que compra la marca (es decir, la proporción de ceros) y (b) a cambio en la frecuencia de compra de la banda (las ventas dadas ocurren en absoluto). Este es un enfoque sólido y conceptualmente significativo en el contexto de marketing y en el contexto ecológico que Fletcher discute. De hecho, esto puede extenderse a (c) un cambio en el tamaño de cada compra.
fuente
Puede tratar el número exacto de ceros desconocido, pero limitado entre 0 y el número observado de ceros. Esto seguramente se puede manejar utilizando una formulación bayesiana del modelo. Quizás también se pueda ajustar un método de imputación múltiple para variar adecuadamente los pesos (entre 0 y 1) de las observaciones cero ...
fuente