Gracias por la interesante pregunta!
Diferencia: Una limitación de los modelos de conteo estándar es que se supone que los ceros y los no ceros (positivos) provienen del mismo proceso de generación de datos. Con los modelos de obstáculos , estos dos procesos no están obligados a ser iguales. La idea básica es que una probabilidad de Bernoulli gobierna el resultado binario de si una variante de conteo tiene una realización cero o positiva. Si la realización es positiva, se cruza el obstáculo y la distribución condicional de los positivos se rige por un modelo de datos de recuento truncado en cero. Con modelos inflados a cero, la variable de respuesta se modela como una mezcla de una distribución de Bernoulli (o llámela masa de punto en cero) y una distribución de Poisson (o cualquier otra distribución de conteo admitida en enteros no negativos). Para más detalles y fórmulas, ver, por ejemplo, Gurmu y Trivedi (2011) y Dalrymple, Hudson y Ford (2003).
Ejemplo: los modelos de obstáculo pueden estar motivados por procesos de toma de decisiones secuenciales que enfrentan los individuos. Primero decide si necesita comprar algo, y luego decide la cantidad de ese algo (que debe ser positivo). Cuando se le permite (o potencialmente puede) comprar nada después de su decisión de comprar algo, es un ejemplo de una situación en la que el modelo inflado a cero es apropiado. Los ceros pueden provenir de dos fuentes: a) ninguna decisión de compra; b) quería comprar pero terminó comprando nada (por ejemplo, sin existencias).
Beta: El modelo de obstáculo es un caso especial del modelo de dos partes descrito en el Capítulo 16 de Frees (2011). Allí, veremos que para los modelos de dos partes, la cantidad de atención médica utilizada puede ser una variable continua y una cuenta. Entonces, lo que en la literatura se ha denominado confusamente "distribución beta inflada a cero" en realidad pertenece a la clase de distribuciones y modelos de dos partes (tan común en la ciencia actuarial), que es consistente con la definición anterior de un modelo de obstáculo . Este excelente libro discutió los modelos con inflación cero en la sección 12.4.1 y los modelos de obstáculo en la sección 12.4.2, con fórmulas y ejemplos de aplicaciones actuariales.
Historia: los modelos de Poisson (ZIP) inflados a cero sin covariables tienen una larga historia (véase, por ejemplo, Johnson y Kotz, 1969). La forma general de los modelos de regresión ZIP que incorporan covariables se debe a Lambert (1992). Los modelos de obstáculos fueron propuestos por primera vez por un estadístico canadiense Cragg (1971), y más tarde desarrollados por Mullahy (1986). También puede considerar Croston (1972), donde se utilizan recuentos geométricos positivos junto con el proceso de Bernoulli para describir un proceso de valores enteros dominado por ceros.
R: Finalmente, si usa R, hay un paquete pscl para "Clases y métodos para R desarrollado en el Laboratorio Computacional de Ciencias Políticas" por Simon Jackman, que contiene las funciones de obstáculo () y zeroinfl () de Achim Zeileis.
Se han consultado las siguientes referencias para producir lo anterior:
- Gurmu, S. y Trivedi, PK Exceso de ceros en modelos de conteo para viajes recreativos Journal of Business & Economic Statistics, 1996, 14, 469-477
- Johnson, N., Kotz, S., Distribuciones en Estadística: Distribuciones discretas. 1969, Houghton MiZin, Boston
- Lambert, D., regresión de Poisson inflada a cero con una aplicación a defectos en la fabricación. Technometrics, 1992, 34 (1), 1–14.
- Cragg, JG Algunos modelos estadísticos para variables dependientes limitadas con aplicación a la demanda de bienes duraderos Econometrica, 1971, 39, 829-844
- Mullahy, J. Especificación y prueba de algunos modelos de datos de conteo modificados Journal of Econometrics, 1986, 33, 341-365
- Frees, modelado de regresión EW con aplicaciones actuariales y financieras Cambridge University Press, 2011
- Dalrymple, ML; Hudson, IL y Ford, mezcla finita RPK, modelos de Poisson y Hurdle inflados a cero con aplicación a estadísticas computacionales y análisis de datos SIDS, 2003, 41, 491-504
- Croston, JD Pronósticos y control de existencias para demandas intermitentes Operational Research Quarterly, 1972, 23, 289-303
Los modelos de obstáculo suponen que solo hay un proceso por el cual se puede producir un cero, mientras que los modelos inflados con cero suponen que hay 2 procesos diferentes que pueden producir un cero.
Los modelos de obstáculos asumen 2 tipos de sujetos: (1) aquellos que nunca experimentan el resultado y (2) aquellos que siempre experimentan el resultado al menos una vez. Los modelos con inflación cero conceptualizan a los sujetos como (1) aquellos que nunca experimentan el resultado y (2) aquellos que pueden experimentar el resultado pero no siempre.
En términos simples: tanto los modelos con inflado cero como los de obstáculo se describen en dos partes.
La primera es la parte de encendido y apagado, que es un proceso binario. El sistema está "apagado" con probabilidad y "encendido" con probabilidad . (Aquí, se conoce como la probabilidad de inflación). Cuando el sistema está "apagado", solo son posibles los recuentos cero. Esta parte es la misma para los modelos con inflado cero y obstáculos.1 - π ππ 1−π π
La segunda parte es la parte de conteo, que ocurre cuando el sistema está "encendido". Aquí es donde difieren los modelos con inflado cero y obstáculo. En los modelos con inflación cero, los recuentos aún pueden ser cero. En los modelos de obstáculo deben ser distintos de cero. Para esta parte, los modelos con inflado cero usan una distribución de probabilidad discreta "habitual", mientras que los modelos de obstáculo usan una función de distribución de probabilidad discreta truncada con cero.
Ejemplo de un modelo de obstáculo: un fabricante de automóviles quiere comparar dos programas de control de calidad para sus automóviles. Los comparará en función del número de reclamaciones de garantía presentadas. Para cada programa, se sigue un conjunto de clientes seleccionados al azar durante 1 año y se cuenta el número de reclamos de garantía que presentan. Luego se comparan las probabilidades de inflación para cada uno de los dos programas. El estado "apagado" es "archivado cero reclamos" mientras que el estado "encendido" es "archivado al menos un reclamo".
Ejemplo de un modelo inflado a cero: en el mismo estudio anterior, los investigadores descubrieron que algunas reparaciones en los automóviles se repararon sin presentar un reclamo de garantía. De esta manera, los ceros son una mezcla de la ausencia de problemas de control de calidad, así como la presencia de problemas de control de calidad que no implicaron reclamos de garantía. El estado "desactivado" significa "presentar cero reclamaciones" mientras que el estado "activado" significa "presentó al menos un reclamo O se repararon sin presentar un reclamo".
Vea aquí un estudio en el que ambos tipos de modelos se aplicaron al mismo conjunto de datos.
fuente
en el modelo ZIP ~ 0 con probabilidad y ~ Poisson ( ) con probabilidad , por lo tanto, el modelo ZIP es un modelo mixto con 2 componentes y:yi π yi λ 1−π
y en un modelo de obstáculo ~ 0 con probabilidad e ~ truncada de Poisson ( ) con probabilidad , y: π y i λ 1 - π Pr ( y j = 0 ) = π Pr ( y j = x i ) = ( 1 - π )yi π yi λ 1−π
fuente
Con respecto a los modelos de obstáculo, aquí hay una cita de Avances en modelado matemático y estadístico (Arnold, Balakrishnan, Sarabia y Mínguez, 2008):
En cuanto a los modelos con inflación cero, Wikipedia dice :
De Arnold y colegas (2008), veo que un modelo de obstáculo en cero es un caso especial de la clase más general de modelos de obstáculo, pero de una referencia en Wikipedia ( Hall, 2004 ), también veo que algunos Los modelos inflados pueden tener límites superiores. No entiendo la diferencia en las fórmulas, pero parecen ser bastante similares (ambos usan un ejemplo muy similar, reclamos de seguro). Espero que otras respuestas puedan ayudar a explicar cualquier diferencia importante, y que esta respuesta ayudará a preparar el escenario para esas.
Referencia de Wikipedia:
fuente