¿Cuál es la diferencia entre los modelos con inflado cero y de obstáculo?

81

Me pregunto si existe una diferencia clara entre las llamadas distribuciones (modelos) infladas a cero y las llamadas distribuciones (modelos) de obstáculo a cero. Los términos aparecen con bastante frecuencia en la literatura y sospecho que no son iguales, pero ¿podría explicarme la diferencia en términos simples?

zero-inflation skulker
fuente

80

Gracias por la interesante pregunta!

Diferencia: Una limitación de los modelos de conteo estándar es que se supone que los ceros y los no ceros (positivos) provienen del mismo proceso de generación de datos. Con los modelos de obstáculos , estos dos procesos no están obligados a ser iguales. La idea básica es que una probabilidad de Bernoulli gobierna el resultado binario de si una variante de conteo tiene una realización cero o positiva. Si la realización es positiva, se cruza el obstáculo y la distribución condicional de los positivos se rige por un modelo de datos de recuento truncado en cero. Con modelos inflados a cero, la variable de respuesta se modela como una mezcla de una distribución de Bernoulli (o llámela masa de punto en cero) y una distribución de Poisson (o cualquier otra distribución de conteo admitida en enteros no negativos). Para más detalles y fórmulas, ver, por ejemplo, Gurmu y Trivedi (2011) y Dalrymple, Hudson y Ford (2003).

Ejemplo: los modelos de obstáculo pueden estar motivados por procesos de toma de decisiones secuenciales que enfrentan los individuos. Primero decide si necesita comprar algo, y luego decide la cantidad de ese algo (que debe ser positivo). Cuando se le permite (o potencialmente puede) comprar nada después de su decisión de comprar algo, es un ejemplo de una situación en la que el modelo inflado a cero es apropiado. Los ceros pueden provenir de dos fuentes: a) ninguna decisión de compra; b) quería comprar pero terminó comprando nada (por ejemplo, sin existencias).

Beta: El modelo de obstáculo es un caso especial del modelo de dos partes descrito en el Capítulo 16 de Frees (2011). Allí, veremos que para los modelos de dos partes, la cantidad de atención médica utilizada puede ser una variable continua y una cuenta. Entonces, lo que en la literatura se ha denominado confusamente "distribución beta inflada a cero" en realidad pertenece a la clase de distribuciones y modelos de dos partes (tan común en la ciencia actuarial), que es consistente con la definición anterior de un modelo de obstáculo . Este excelente libro discutió los modelos con inflación cero en la sección 12.4.1 y los modelos de obstáculo en la sección 12.4.2, con fórmulas y ejemplos de aplicaciones actuariales.

Historia: los modelos de Poisson (ZIP) inflados a cero sin covariables tienen una larga historia (véase, por ejemplo, Johnson y Kotz, 1969). La forma general de los modelos de regresión ZIP que incorporan covariables se debe a Lambert (1992). Los modelos de obstáculos fueron propuestos por primera vez por un estadístico canadiense Cragg (1971), y más tarde desarrollados por Mullahy (1986). También puede considerar Croston (1972), donde se utilizan recuentos geométricos positivos junto con el proceso de Bernoulli para describir un proceso de valores enteros dominado por ceros.

R: Finalmente, si usa R, hay un paquete pscl para "Clases y métodos para R desarrollado en el Laboratorio Computacional de Ciencias Políticas" por Simon Jackman, que contiene las funciones de obstáculo () y zeroinfl () de Achim Zeileis.

Se han consultado las siguientes referencias para producir lo anterior:

Gurmu, S. y Trivedi, PK Exceso de ceros en modelos de conteo para viajes recreativos Journal of Business & Economic Statistics, 1996, 14, 469-477
Johnson, N., Kotz, S., Distribuciones en Estadística: Distribuciones discretas. 1969, Houghton MiZin, Boston
Lambert, D., regresión de Poisson inflada a cero con una aplicación a defectos en la fabricación. Technometrics, 1992, 34 (1), 1–14.
Cragg, JG Algunos modelos estadísticos para variables dependientes limitadas con aplicación a la demanda de bienes duraderos Econometrica, 1971, 39, 829-844
Mullahy, J. Especificación y prueba de algunos modelos de datos de conteo modificados Journal of Econometrics, 1986, 33, 341-365
Frees, modelado de regresión EW con aplicaciones actuariales y financieras Cambridge University Press, 2011
Dalrymple, ML; Hudson, IL y Ford, mezcla finita RPK, modelos de Poisson y Hurdle inflados a cero con aplicación a estadísticas computacionales y análisis de datos SIDS, 2003, 41, 491-504
Croston, JD Pronósticos y control de existencias para demandas intermitentes Operational Research Quarterly, 1972, 23, 289-303

Hibernando
fuente

2

¿Es un modelo de obstáculo realmente un "modelo" en sí mismo? ¿O está ejecutando dos modelos secuenciales y estimados por separado? Imagine que modela la competitividad de las carreras electorales observando los puntajes de competitividad (1 - margen de victoria). Esto está limitado [0, 1), porque no hay vínculos (por ejemplo, 1). Entonces, primero hacemos una regresión logística para analizar 0 vs. (0, 1). Luego hacemos una regresión beta para analizar los casos (0, 1). Parece que estos son dos modelos completamente diferentes, con sus propios coeficientes y estimación separada. ¿O me estoy perdiendo algo?

Mark White

Por ejemplo, usted menciona en su respuesta que los ceros podrían deberse a (a) decidir no comprar un automóvil, o (b) querer hacerlo, pero no estaba disponible. Parece que un modelo de obstáculo no podría diferenciar entre los dos, ya que se hacen secuencialmente ...?

Mark White

Considere otro ejemplo: las respuestas son [1, 7], como una escala Likert tradicional, con un efecto de techo enorme en 7. Se podría hacer un modelo de obstáculo que sea una regresión logística de [1, 7) vs. 7, y luego una regresión de Tobit para todos los casos donde las respuestas observadas son <7. Nuevamente, obtenemos dos conjuntos de coeficientes de regresión, y se estiman por separado. Parece que no estamos modelando estos procesos conjuntamente, sino en dos modelos totalmente diferentes. Entonces, ¿el obstáculo es en realidad un modelo, o simplemente el proceso de hacer dos tipos diferentes de modelos lineales generalizados en una fila?

Mark White

Extendí

Mark White

47

Los modelos de obstáculo suponen que solo hay un proceso por el cual se puede producir un cero, mientras que los modelos inflados con cero suponen que hay 2 procesos diferentes que pueden producir un cero.

Los modelos de obstáculos asumen 2 tipos de sujetos: (1) aquellos que nunca experimentan el resultado y (2) aquellos que siempre experimentan el resultado al menos una vez. Los modelos con inflación cero conceptualizan a los sujetos como (1) aquellos que nunca experimentan el resultado y (2) aquellos que pueden experimentar el resultado pero no siempre.

En términos simples: tanto los modelos con inflado cero como los de obstáculo se describen en dos partes.

La primera es la parte de encendido y apagado, que es un proceso binario. El sistema está "apagado" con probabilidad y "encendido" con probabilidad . (Aquí, se conoce como la probabilidad de inflación). Cuando el sistema está "apagado", solo son posibles los recuentos cero. Esta parte es la misma para los modelos con inflado cero y obstáculos. $\pi$ $1-\pi$ $\pi$

La segunda parte es la parte de conteo, que ocurre cuando el sistema está "encendido". Aquí es donde difieren los modelos con inflado cero y obstáculo. En los modelos con inflación cero, los recuentos aún pueden ser cero. En los modelos de obstáculo deben ser distintos de cero. Para esta parte, los modelos con inflado cero usan una distribución de probabilidad discreta "habitual", mientras que los modelos de obstáculo usan una función de distribución de probabilidad discreta truncada con cero.

Ejemplo de un modelo de obstáculo: un fabricante de automóviles quiere comparar dos programas de control de calidad para sus automóviles. Los comparará en función del número de reclamaciones de garantía presentadas. Para cada programa, se sigue un conjunto de clientes seleccionados al azar durante 1 año y se cuenta el número de reclamos de garantía que presentan. Luego se comparan las probabilidades de inflación para cada uno de los dos programas. El estado "apagado" es "archivado cero reclamos" mientras que el estado "encendido" es "archivado al menos un reclamo".

Ejemplo de un modelo inflado a cero: en el mismo estudio anterior, los investigadores descubrieron que algunas reparaciones en los automóviles se repararon sin presentar un reclamo de garantía. De esta manera, los ceros son una mezcla de la ausencia de problemas de control de calidad, así como la presencia de problemas de control de calidad que no implicaron reclamos de garantía. El estado "desactivado" significa "presentar cero reclamaciones" mientras que el estado "activado" significa "presentó al menos un reclamo O se repararon sin presentar un reclamo".

Vea aquí un estudio en el que ambos tipos de modelos se aplicaron al mismo conjunto de datos.

Darren James
fuente

Gracias por la respuesta detallada. ¿Te gustaría ver cuál es la terminología apropiada para la distribución beta estándar con ceros agregados? Usando su definición de modelos con cero inflado, claramente hay una fuente de ceros, por lo que no se puede llamar cero inflado ... Vea esta discusión stats.stackexchange.com/questions/81343/…

skulker

2

Me gusta la "distribución beta de cero agregado" como lo sugiere @Hibernating

Darren James

10

en el modelo ZIP ~ 0 con probabilidad y ~ Poisson ( ) con probabilidad , por lo tanto, el modelo ZIP es un modelo mixto con 2 componentes y: $y_i$ $\pi$ $y_i$ $\lambda$ $1-\pi$

Pr (y_{j} = 0) = π + (1 - π) e^{- λ}

$\Pr (y_j = 0) = \pi + (1 - \pi) e^{-\lambda}$

Pr (y_{j} = x_{i}) = (1 - π) \frac{λ^{x_{i}} e^{- λ}}{x_{i}!}, x_{i} \geq 1

$\Pr (y_j = x_i) = (1 - \pi) \frac{\lambda^{x_i} e^{-\lambda}} {x_i!},\qquad x_i \ge 1$

y en un modelo de obstáculo ~ 0 con probabilidad e ~ truncada de Poisson ( ) con probabilidad , y: $y_i$ $\pi$ $y_i$ $\lambda$ $1-\pi$

Pr (y_{j} = 0) = π

$\Pr (y_j = 0) = \pi$

Pr (y_{j} = x_{i}) = \frac{(1 - π)}{1 - e^{- λ}} (\frac{λ^{x_{i}} e^{- λ}}{x_{i}!}), x_{i} \geq 1

$\Pr (y_j = x_i) = \frac{(1 - \pi)} {1-e^{-\lambda}} (\frac{\lambda^{x_i} e^{-\lambda}} {x_i!}),\qquad x_i \ge 1$

Marzieh
fuente

4

Con respecto a los modelos de obstáculo, aquí hay una cita de Avances en modelado matemático y estadístico (Arnold, Balakrishnan, Sarabia y Mínguez, 2008):

El modelo de obstáculo se caracteriza por el proceso debajo del obstáculo y el de arriba. Obviamente, el modelo de obstáculo más utilizado es el que establece el obstáculo en cero. Formalmente, el modelo de obstáculo en cero se expresa como: para para $P(N_i=n_i)=f_1(0)$ $n_i=0$ $P(N_i=n_i)=\frac{1-f_1(0)}{1-f_2(0)}f_2(n_i)=\phi f_2(n_i)$ $n_i=1,2,...$

La variable puede interpretarse como la probabilidad de cruzar el obstáculo, o más precisamente en el caso del seguro, la probabilidad de informar al menos un reclamo. $\phi$

En cuanto a los modelos con inflación cero, Wikipedia dice :

Un modelo inflado a cero es un modelo estadístico basado en una distribución de probabilidad inflada a cero, es decir, una distribución que permite observaciones frecuentes de valor cero.

El modelo de Poisson inflado a cero se refiere a un evento aleatorio que contiene datos de conteo cero en exceso en unidades de tiempo. Por ejemplo, el número de reclamos a una compañía de seguros por parte de una persona cubierta es casi siempre cero, de lo contrario, las pérdidas sustanciales causarían la quiebra de la compañía de seguros. El modelo de Poisson (ZIP) inflado a cero emplea dos componentes que corresponden a dos procesos generadores de cero. El primer proceso se rige por una distribución binaria que genera ceros estructurales. El segundo proceso se rige por una distribución de Poisson que genera conteos, algunos de los cuales pueden ser cero. Los dos componentes del modelo se describen a continuación: $^{[1]}$
$Pr (y_{j} = 0) = π + (1 - π) e^{- λ}$ $\Pr (y_j = 0) = \pi + (1 - \pi) e^{-\lambda}$ $Pr (y_{j} = h_{i}) = (1 - π) \frac{λ^{h_{i}} e^{- λ}}{h_{i}!}, h_{i} \geq 1$ $\Pr (y_j = h_i) = (1 - \pi) \frac{\lambda^{h_i} e^{-\lambda}} {h_i!},\qquad h_i \ge 1$ donde la variable de resultado tiene cualquier valor entero no negativo, es el recuento de Poisson esperado para el ésimo individuo; es la probabilidad de ceros adicionales. $y_j$ $\lambda_i$ $i$ $\pi$

De Arnold y colegas (2008), veo que un modelo de obstáculo en cero es un caso especial de la clase más general de modelos de obstáculo, pero de una referencia en Wikipedia ( Hall, 2004 ), también veo que algunos Los modelos inflados pueden tener límites superiores. No entiendo la diferencia en las fórmulas, pero parecen ser bastante similares (ambos usan un ejemplo muy similar, reclamos de seguro). Espero que otras respuestas puedan ayudar a explicar cualquier diferencia importante, y que esta respuesta ayudará a preparar el escenario para esas.

Referencia de Wikipedia:

Lambert, D. (1992). Regresión de Poisson inflada a cero, con una aplicación a defectos en la fabricación. Technometrics, 34 (1), 1–14.

Nick Stauner
fuente

¿Cuál es la diferencia entre los modelos con inflado cero y de obstáculo?

Respuestas: