OLS vs. Poisson GLM con enlace de identidad

11

Mi pregunta revela mi pobre comprensión de la regresión de Poisson y los GLM en general. Aquí hay algunos datos falsos para ilustrar mi pregunta:

### some fake data
x=c(1:14)
y=c(0,  1,  2,  3,  1,  4,  9, 18, 23, 31, 20, 25, 37, 45)

Algunas funciones personalizadas para devolver psuedo-R2:

### functions of pseudo-R2

psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}

predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}

Se ajusta a cuatro modelos: OLS, Gaussian GLM con enlace de identidad, Poisson GLM con enlace de registro, Poisson GLM con enlace de identidad

#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)

summary(mdl.ols)$r.squared
predR2(y, pred.ols)

#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)

psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)

#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log))  #transform

psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)

#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)

psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)

Finalmente trazar las predicciones:

#### Plot the Fit
plot(x, y) 
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")

Tengo 2 preguntas:

  1. Parece que los coeficientes y las predicciones que salen de OLS y Gaussian GLM con enlace de identidad son exactamente los mismos. ¿Es esto siempre cierto?

  2. Estoy muy sorprendido de que las estimaciones y predicciones de OLS sean muy diferentes de las Poisson GLM con enlace de identidad . Pensé que ambos métodos tratarían de estimar E (Y | X). ¿Cómo se ve la función de probabilidad cuando uso el enlace de identidad para Poisson?

William Chiu
fuente
Relacionado: stats.stackexchange.com/questions/142338/…
kjetil b halvorsen
1
Si desea hacer mínimos cuadrados para aproximar el modelo de Poisson con el enlace de identidad, también puede ajustar un modelo de mínimos cuadrados ponderado, mdl.wols = lm (y ~ x, pesos = 1 / log (y + 1.00000000001)) donde el registro (y + 1.00000000001) luego se toma como una primera estimación de la varianza (sqrt (y + 1E-10)) también funciona: las estimaciones de tales modelos estarían muy cerca de la del Poisson GLM con enlace de identidad ...
Tom Wenseleers

Respuestas:

14
  1. Sí, son lo mismo. MLE para un gaussiano son mínimos cuadrados, por lo que cuando haces un GLM gaussiano con un enlace de identidad, estás haciendo OLS.

  2. a) " Pensé que ambos métodos tratarían de estimar E (Y | X) "

    De hecho, lo hacen, pero la forma en que se estima la expectativa condicional en función de los datos no es la misma. Incluso si ignoramos la distribución (y, por lo tanto, cómo los datos ingresan la probabilidad) y pensamos en el GLM solo en términos de media y varianza (como si fuera solo una regresión ponderada), la varianza de un Poisson aumenta con la media, entonces los pesos relativos en las observaciones serían diferentes.

    b) " ¿Cómo se ve la función de probabilidad cuando uso el enlace de identidad para Poisson? "

    L(β0 0,β1)=yomi-λyoλyoyyo/ /yyo!

    =Exp(yo-λyo+yyoIniciar sesión(λyo)-Iniciar sesión(yyo!)) dondeλyo=β0 0+β1Xyo

    =Exp(yo-(β0 0+β1Xyo)+yyoIniciar sesión(β0 0+β1Xyo)-Iniciar sesión(yyo!))

Glen_b -Reinstate a Monica
fuente
44
Una elaboración sobre el segundo punto de Glen_b. Una historia que me conté, que encontré bastante clarificadora, es que a medida que la media condicional estimada aumenta en el modelo de Poisson, el modelo se vuelve más tolerante con los valores de los datos lejos de la media condicional. Compare esto con el modelo lineal recto, que es uniformemente tolerante sin importar cuál sea la media condicional estimada.
Matthew Drury
@Glen_b, ¿puedo pedirle que aclare lo que dijo: "de ahí cómo los datos ingresan la probabilidad". ¿Está diciendo que la probabilidad del ajuste del modelo es diferente entre un OLS y POisson (enlace = identidad), cuando se ajusta usando MLE? Es decir, si ajusta OLS utilizando MLE, ¿utiliza la función de probabilidad de la distribución normal para calcular la probabilidad de ajuste, en comparación con la función de probabilidad de la distribución de Poisson en el último caso?
Alex
1
@Alex Right; OLS es ML en Gaussian y la probabilidad gaussiana no es probabilidad de Poisson
Glen_b -Reinstale a Monica