Estoy luchando por comprender las distribuciones infladas cero. ¿Qué son? ¿Cuál es el punto de?
Si tengo datos con muchos ceros, entonces podría ajustar una regresión logística primero calcular la probabilidad de ceros, y luego podría eliminar todos los ceros, y luego ajustar una regresión regular usando mi elección de distribución (por ejemplo, Poisson).
Entonces alguien me dijo "oye, usa una distribución inflada cero", pero al buscarla, ¿no parece hacer algo diferente de lo que sugerí anteriormente? Tiene un parámetro regular , y luego otro parámetro para modelar la probabilidad de cero. Simplemente hace las dos cosas al mismo tiempo, ¿no?p
zero-inflation
Calro
fuente
fuente
Respuestas:
Estás absolutamente en lo correcto. Esta es una forma de ajustar un modelo inflado a cero (o como Achim Zeileis señala en los comentarios, este es estrictamente un "modelo de obstáculo", que se podría ver como un caso especial de un modelo inflado a cero).
La diferencia entre el procedimiento que describió y un modelo "todo en uno" con cero inflado es la propagación de errores. Como todos los demás procedimientos de dos pasos en las estadísticas, la incertidumbre general de sus predicciones en el paso 2 no tendrá en cuenta la incertidumbre sobre si la predicción debe ser 0 o no.
A veces este es un mal necesario. Afortunadamente, no es necesario en este caso. En R, puedes usar
pscl::hurdle()
ofitdistrplus::fitdist()
.fuente
pscl::hurdle()
). Y para obtener un ajuste adecuado, la distribución empleada para los datos sin ceros debe truncarse a cero (o no conducir a ceros en primer lugar). Vea mi respuesta para más detalles.La idea básica que describe es un enfoque válido y a menudo se llama un modelo de obstáculo (o modelo de dos partes) en lugar de un modelo inflado a cero .
Sin embargo, es crucial que el modelo para los datos distintos de cero tenga en cuenta la eliminación de los ceros. Si ajusta un modelo de Poisson a los datos sin ceros, esto seguramente producirá un ajuste deficiente porque la distribución de Poisson siempre tiene una probabilidad positiva de cero. La alternativa natural es usar una distribución de Poisson truncada en cero, que es el enfoque clásico para la regresión de obstáculos para los datos de conteo.
La principal diferencia entre los modelos inflados a cero y los modelos de obstáculo es qué probabilidad se modela en la parte binaria de la regresión. Para los modelos de obstáculo, es simplemente la probabilidad de cero frente a no cero. En los modelos con inflación cero, es la probabilidad de tener un exceso de cero , es decir, la probabilidad de un cero que no sea causada por la distribución no inflada (por ejemplo, Poisson).
Para una discusión de los modelos de obstáculo y de inflación cero para los datos de conteo en R, vea nuestro manuscrito publicado en JSS y también enviado como una viñeta al
pscl
paquete: http://dx.doi.org/10.18637/jss.v027.i08fuente
Lo que dijo ssdecontrol es muy correcto. Pero me gustaría agregar algunos centavos a la discusión.
Acabo de ver la conferencia sobre modelos inflados por cero para datos de conteo de Richard McElreath en YouTube.
Tiene sentido estimar p mientras se controlan las variables que explican la tasa del modelo puro de Poisson, especialmente si se considera que la probabilidad de que se origine un cero observado a partir de la distribución de Poisson no es del 100%.
También tiene sentido cuando considera los parámetros del modelo, ya que termina con dos variables para estimar, p y la tasa del modelo de Poisson, y dos ecuaciones, el caso cuando el recuento es cero y el caso cuando el recuento es diferente de cero.
Fuente de la imagen: Replanteamiento estadístico: un curso bayesiano con ejemplos en R y Stan por Richard McElreath
Editar : error tipográfico
fuente