Mi pregunta revela mi pobre comprensión de la regresión de Poisson y los GLM en general. Aquí hay algunos datos falsos para ilustrar mi pregunta:
### some fake data
x=c(1:14)
y=c(0, 1, 2, 3, 1, 4, 9, 18, 23, 31, 20, 25, 37, 45)
Algunas funciones personalizadas para devolver psuedo-R2:
### functions of pseudo-R2
psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}
predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}
Se ajusta a cuatro modelos: OLS, Gaussian GLM con enlace de identidad, Poisson GLM con enlace de registro, Poisson GLM con enlace de identidad
#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)
summary(mdl.ols)$r.squared
predR2(y, pred.ols)
#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)
psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)
#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log)) #transform
psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)
#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)
psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)
Finalmente trazar las predicciones:
#### Plot the Fit
plot(x, y)
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")
Tengo 2 preguntas:
Parece que los coeficientes y las predicciones que salen de OLS y Gaussian GLM con enlace de identidad son exactamente los mismos. ¿Es esto siempre cierto?
Estoy muy sorprendido de que las estimaciones y predicciones de OLS sean muy diferentes de las Poisson GLM con enlace de identidad . Pensé que ambos métodos tratarían de estimar E (Y | X). ¿Cómo se ve la función de probabilidad cuando uso el enlace de identidad para Poisson?
fuente
Respuestas:
Sí, son lo mismo. MLE para un gaussiano son mínimos cuadrados, por lo que cuando haces un GLM gaussiano con un enlace de identidad, estás haciendo OLS.
a) " Pensé que ambos métodos tratarían de estimar E (Y | X) "
De hecho, lo hacen, pero la forma en que se estima la expectativa condicional en función de los datos no es la misma. Incluso si ignoramos la distribución (y, por lo tanto, cómo los datos ingresan la probabilidad) y pensamos en el GLM solo en términos de media y varianza (como si fuera solo una regresión ponderada), la varianza de un Poisson aumenta con la media, entonces los pesos relativos en las observaciones serían diferentes.
b) " ¿Cómo se ve la función de probabilidad cuando uso el enlace de identidad para Poisson? "
fuente