Una distribución Tweedie puede modelar datos asimétricos con una masa de punto en cero cuando el parámetro (exponente en la relación media-varianza) está entre 1 y 2.
Del mismo modo, un modelo inflado a cero (ya sea continuo o discreto) puede tener una gran cantidad de ceros.
Tengo problemas para entender por qué es que cuando hago predicciones o calculo valores ajustados con este tipo de modelos, todos los valores pronosticados no son cero.
¿Pueden estos modelos realmente predecir ceros exactos?
Por ejemplo
library(tweedie)
library(statmod)
# generate data
y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p
x <- y+rnorm( length(y), 0, 0.2)
# estimate p
out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9))
# fit glm
fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0))
# predict
pred <- predict.glm(fit, newdata=data.frame(x=x), type="response")
pred
ahora no contiene ceros. Pensé que la utilidad de modelos como la distribución Tweedie proviene de su capacidad para predecir ceros exactos y la parte continua.
Sé que en mi ejemplo la variable x
no es muy predictiva.
Respuestas:
Tenga en cuenta que el valor predicho en un GLM es una media.
Para cualquier distribución en valores no negativos, para predecir una media de 0, su distribución tendría que ser completamente un pico en 0.
Sin embargo, con un enlace de registro, nunca se ajustará a una media de exactamente cero (ya que eso requeriría que fuera a - ∞ ).η - ∞
Entonces su problema no es un problema con Tweedie, sino mucho más general; tendría exactamente el mismo problema con el Poisson (GLM de Poisson inflado a cero u ordinario), por ejemplo.
Dado que predecir ceros exactos no ocurrirá para ninguna distribución sobre valores no negativos con un enlace de registro, su pensamiento sobre esto debe estar equivocado.
Una de sus atracciones es que puede modelar ceros exactos en los datos, no que las predicciones medias sean 0. [Por supuesto, una distribución ajustada con una media distinta de cero puede tener una probabilidad de ser exactamente cero, aunque la media debe exceder 0 Un intervalo de predicción adecuado podría incluir 0, por ejemplo.]
No importa en absoluto que la distribución ajustada incluya una proporción sustancial de ceros, lo que no hace que la media ajustada sea cero.
Tenga en cuenta que si cambia su función de enlace para decir un enlace de identidad, en realidad no resuelve su problema: la media de una variable aleatoria no negativa que no sea todo ceros será positiva.
fuente
Predecir la proporción de ceros
Soy el autor del paquete statmod y el autor conjunto del paquete tweedie. Todo en tu ejemplo está funcionando correctamente. El código representa correctamente los ceros que puedan estar en los datos.
Como Glen_b y Tim han explicado, el valor medio predicho nunca será exactamente cero, a menos que la probabilidad de un cero sea del 100%. Sin embargo, lo que podría ser de interés es la proporción pronosticada de ceros, y esto se puede extraer fácilmente del ajuste del modelo como se muestra a continuación.
Aquí hay un ejemplo de trabajo más sensato. Primero simule algunos datos:
Los datos contienen 12 ceros.
Ahora se ajusta a una película Tweedie:
Entonces, la proporción pronosticada de ceros varía desde 38.1% en los valores medios más pequeños hasta 4.5e-6 en los valores medios más grandes.
La fórmula para la probabilidad de un cero exacto se puede encontrar en Dunn & Smyth (2001) Tweedie Family Densities: Methods of Evaluation o Dunn & Smyth (2005) Evaluación de la serie de densidades del modelo de dispersión exponencial Tweedie .
fuente
Esta respuesta se fusionó a partir de otro hilo que preguntaba sobre las predicciones del modelo de regresión inflado a cero, pero también se aplica al modelo Tweedie GLM.
Esto se ilustra en la siguiente gráfica, donde los valores de la variable aleatoriaY se conspiran contra X , dónde Y sigue una distribución de Poisson inflada a cero con condicional media en X . Los puntos negros son los datos reales que se utilizaron para ajustar el modelo de regresión de Poisson inflado a cero, los puntos rojos son las predicciones y los puntos azules son medios deY dentro de los seis grupos arbitrarios de X valores. Como puede ver, claramente las estimaciones del modelo de regresión de Poisson inflado a ceromi( YEl | X) .
fuente