Cero distribuciones infladas, ¿qué son realmente?

15

Estoy luchando por comprender las distribuciones infladas cero. ¿Qué son? ¿Cuál es el punto de?

Si tengo datos con muchos ceros, entonces podría ajustar una regresión logística primero calcular la probabilidad de ceros, y luego podría eliminar todos los ceros, y luego ajustar una regresión regular usando mi elección de distribución (por ejemplo, Poisson).

Entonces alguien me dijo "oye, usa una distribución inflada cero", pero al buscarla, ¿no parece hacer algo diferente de lo que sugerí anteriormente? Tiene un parámetro regular , y luego otro parámetro para modelar la probabilidad de cero. Simplemente hace las dos cosas al mismo tiempo, ¿no?pμp

Calro
fuente
3
¿Por qué eliminas todos los ceros? pueden hacerlo juntos, primero calculan la probabilidad de 0 y 1 y la usan como peso para su distribución de Poisson que es el modelo inflado (distribución) cero. Lea esto, está bastante claro en.wikipedia.org/wiki/Zero-inflated_model
Deep North

Respuestas:

13

ajustar una regresión logística primero calcular la probabilidad de ceros, y luego podría eliminar todos los ceros, y luego ajustar una regresión regular usando mi elección de distribución (por ejemplo, Poisson)

Estás absolutamente en lo correcto. Esta es una forma de ajustar un modelo inflado a cero (o como Achim Zeileis señala en los comentarios, este es estrictamente un "modelo de obstáculo", que se podría ver como un caso especial de un modelo inflado a cero).

La diferencia entre el procedimiento que describió y un modelo "todo en uno" con cero inflado es la propagación de errores. Como todos los demás procedimientos de dos pasos en las estadísticas, la incertidumbre general de sus predicciones en el paso 2 no tendrá en cuenta la incertidumbre sobre si la predicción debe ser 0 o no.

A veces este es un mal necesario. Afortunadamente, no es necesario en este caso. En R, puedes usar pscl::hurdle()o fitdistrplus::fitdist().

Shadowtalker
fuente
¿puede explicar esto "la incertidumbre general de sus predicciones en el paso 2 no tendrá en cuenta la incertidumbre sobre si la predicción debería ser 0 o no"? Cuando haga un Zip Poisson, multiplicará la probabilidad de la primera parte a la función de probabilidad del modelo de Poisson, por lo tanto, el paso 2 tendrá en cuenta la incertidumbre del 0 o 1.
Deep North
1
P(Y=1|X=x)=0.510.51
3
@ssdecontrol Por lo general, esto no se llama un modelo inflado a cero sino un modelo de obstáculo (por ejemplo, pscl::hurdle()). Y para obtener un ajuste adecuado, la distribución empleada para los datos sin ceros debe truncarse a cero (o no conducir a ceros en primer lugar). Vea mi respuesta para más detalles.
Achim Zeileis
9

La idea básica que describe es un enfoque válido y a menudo se llama un modelo de obstáculo (o modelo de dos partes) en lugar de un modelo inflado a cero .

Sin embargo, es crucial que el modelo para los datos distintos de cero tenga en cuenta la eliminación de los ceros. Si ajusta un modelo de Poisson a los datos sin ceros, esto seguramente producirá un ajuste deficiente porque la distribución de Poisson siempre tiene una probabilidad positiva de cero. La alternativa natural es usar una distribución de Poisson truncada en cero, que es el enfoque clásico para la regresión de obstáculos para los datos de conteo.

La principal diferencia entre los modelos inflados a cero y los modelos de obstáculo es qué probabilidad se modela en la parte binaria de la regresión. Para los modelos de obstáculo, es simplemente la probabilidad de cero frente a no cero. En los modelos con inflación cero, es la probabilidad de tener un exceso de cero , es decir, la probabilidad de un cero que no sea causada por la distribución no inflada (por ejemplo, Poisson).

Para una discusión de los modelos de obstáculo y de inflación cero para los datos de conteo en R, vea nuestro manuscrito publicado en JSS y también enviado como una viñeta al psclpaquete: http://dx.doi.org/10.18637/jss.v027.i08

Achim Zeileis
fuente
7

Lo que dijo ssdecontrol es muy correcto. Pero me gustaría agregar algunos centavos a la discusión.

Acabo de ver la conferencia sobre modelos inflados por cero para datos de conteo de Richard McElreath en YouTube.

Tiene sentido estimar p mientras se controlan las variables que explican la tasa del modelo puro de Poisson, especialmente si se considera que la probabilidad de que se origine un cero observado a partir de la distribución de Poisson no es del 100%.

Cero distribuciones infladas como modelo multinivel

También tiene sentido cuando considera los parámetros del modelo, ya que termina con dos variables para estimar, p y la tasa del modelo de Poisson, y dos ecuaciones, el caso cuando el recuento es cero y el caso cuando el recuento es diferente de cero.

Fuente de la imagen: Replanteamiento estadístico: un curso bayesiano con ejemplos en R y Stan por Richard McElreath

Editar : error tipográfico

Guilherme Marthe
fuente
Se aprecian las referencias a los materiales de aprendizaje ... pero ¿cómo responde esto a la pregunta en cuestión? Esto parece un comentario publicado como respuesta ...
RTbecard