Cómo interpretar las estimaciones de parámetros en los resultados de Poisson GLM [cerrado]

14
Call:
glm(formula = darters ~ river + pH + temp, family = poisson, data = darterData)

Deviance Residuals:
    Min      1Q   Median     3Q    Max
-3.7422 -1.0257   0.0027 0.7169 3.5347

Coefficients:
              Estimate Std.Error z value Pr(>|z|)
(Intercept)   3.144257  0.218646  14.381  < 2e-16 ***
riverWatauga -0.049016  0.051548  -0.951  0.34166
pH            0.086460  0.029821   2.899  0.00374 **
temp         -0.059667  0.009149  -6.522  6.95e-11 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for poisson family taken to be 1)
Null deviance: 233.68 on 99 degrees of freedom
Residual deviance: 187.74 on 96 degrees of freedom
AIC: 648.21

Quiero saber cómo interpretar cada estimación de parámetro en la tabla anterior.

tomjerry001
fuente
La interpretación es idéntica: stats.stackexchange.com/a/126225/7071
Dimitriy V. Masterov
66
Esta pregunta parece estar fuera de tema porque se trata de explicar una salida R sin ninguna forma de pregunta inteligente detrás. Esta es la categoría "Vuelco la salida de mi computadora allí y usted ejecuta el análisis de estadísticas para mí" ...
Xi'an
1
Su parámetro de dispersión parece indicar que hay algunos problemas con su modelo. Quizás debería considerar usar una distribución de cuasipoisson en su lugar. Apuesto a que sus estimaciones de parámetros cambiarán drásticamente y también lo hará la interpretación. Si ejecuta "plot (model)" obtendrá algunos gráficos de sus residuos, eche un vistazo a estos gráficos para patrones no deseados antes de comenzar a interpretar su modelo real. Para trazar rápidamente el ajuste de su modelo, también puede usar "visreg (modelfit)" del paquete visreg
Robbie
3
@ Xi'an, aunque la pregunta es escasa y requiere edición, no creo que esté fuera de tema. Considere estas preguntas que no se consideran fuera de tema: Interpretación de la salida lm () de R , e Interpretación de la salida de R para la regresión binomial . Sin embargo, parece ser un duplicado .
gung - Restablece a Monica
2
Este es un duplicado de ¿Cómo interpretar los coeficientes en una regresión de Poisson? Por favor, lea el hilo vinculado. Si aún tiene una pregunta después de leer eso, regrese aquí y edite su pregunta para indicar lo que ha aprendido y lo que aún necesita saber, entonces podemos proporcionar la información que necesita sin simplemente duplicar material en otro lugar que ya no ayudó. tú.
gung - Restablece a Monica

Respuestas:

28

No creo que el título de su pregunta capture con precisión lo que está pidiendo.

La cuestión de cómo interpretar los parámetros en un GLM es muy amplia porque el GLM es una clase muy amplia de modelos. Recuerde que un GLM modela una variable de respuesta que se supone que sigue una distribución conocida de la familia exponencial, y que hemos elegido una función invertible g tal que E [ yysol paralas variables predictoras J x . En este modelo, la interpretación de cualquier parámetro particular β j es la tasa de cambio de g ( y ) con respecto a x j . Definir μ E [ y

mi[yEl |X]=sol-1(X0 0+X1β1++XJβJ)
JXβjg(y)xj yηxβpara mantener limpia la notación. Entonces, para cualquierj{1,...,J}, β j =μE[y|x]=g1(x)ηxβj{1,,J} Ahora definaejcomo un vector decerosJ-1y un solo1en laposiciónj, de modo que, por ejemplo, siJ=5,entoncese3=(0,0,1,0,0). Entonces βj=g(E [ y
βj=ηxj=g(μ)xj.
ejJ11jJ=5e3=(0,0,1,0,0)
βj=g(E[y|x+ej])g(E[y|x])

Lo que simplemente significa que es el efecto sobre η de un aumento unitario en x j .βjηxj

También puede establecer la relación de esta manera: y E[y

E[y|x]xj=μxj=dμdηηxj=μηβj=dg1dηβj
E[y|x+ej]E[y|x]Δjy^=g1((x+ej)β)g1(xβ)

Sin saber nada sobre , eso es lo más lejos que podemos llegar. β j es el efecto sobre η , en la media condicional transformada de y , de una unidad de aumento en x j , y el efecto sobre la media condicional de y de un aumento de una unidad en x j es g - 1 ( β ) .gβjηyxjyxjg1(β)


Pero parece estar preguntando específicamente sobre la regresión de Poisson usando la función de enlace predeterminada de R, que en este caso es el logaritmo natural. Si ese es el caso, está preguntando acerca de un tipo específico de GLM en el que y g = ln . Entonces podemos obtener algo de tracción con respecto a una interpretación específica.yPoisson(λ)g=ln

Por lo que dije anteriormente, sabemos que μxj=dg1dηβj. And since we know g(μ)=ln(μ), we also know that g1(η)=eη. We also happen to know that deηdη=eη, so we can say that

μxj=E[y|x]xj=ex0+x1β1++xJβJβj

which finally means something tangible:

Given a very small change in xj, the fitted y^ changes by y^βj.

Note: this approximation can actually work for changes as large as 0.2, depending on how much precision you need.

And using the more familiar unit change interpretation, we have:

Δjy^=ex0+x1β1++(xj+1)βj++xJβJex0+x1β1++xJβJ=ex0+x1β1++xJβJ+βjex0+x1β1++xJβJ=ex0+x1β1++xJβJejβex0+x1β1++xJβJ=ex0+x1β1++xJβJ(ejβ1)
which means

Given a unit change in xj, the fitted y^ changes by y^(ejβ1).

There are three important pieces to note here:

  1. The effect of a change in the predictors depends on the level of the response.
  2. An additive change in the predictors has a multiplicative effect on the response.
  3. You can't interpret the coefficients just by reading them (unless you can compute arbitrary exponentials in your head).

So in your example, the effect of increasing pH by 1 is to increase lny^ by y^(e0.091); that is, to multiply y^ by e0.091.09. It looks like your outcome is the number of darters you observe in some fixed unit of time (say, a week). So if you're observing 100 darters a week at a pH of 6.7, raising the pH of the river to 7.7 means you can now expect to see 109 darters a week.

shadowtalker
fuente
I made a couple tweaks here, @ssdecontrol. I think they'll make your post a little easier to follow, but if you don't like them, roll them back with my apologies.
gung - Reinstate Monica
I you can't figure that out from my answer then clearly I need to revise the answer. What are you still confused about?
shadowtalker
Plug those numbers into the equation just like in linear regression
shadowtalker
1
@skan no, I mean E[y|x]. x and y are random variables representing to a single observation. x is a vector indexed by j; xj is the random variable representing a specific feature/regressor/input/predictor for that observation.
shadowtalker
2
And don't overthink it. Once you understand all the pieces in a GLM, the manipulations here are just a direct application of calculus principles. It really is as simple as taking the derivative with respect to the variable you're interested in.
shadowtalker
3

My suggestion would be to create a small grid consisting of combinations of the two rivers and two or three values of each of the covariates, then use the predict function with your grid as newdata. Then graph the results. It is much clearer to look at the values that the model actually predicts. You may or may not want to back-transform the predictions to the original scale of measurement (type = "response").

Russ Lenth
fuente
1
As much as I like this approach (I do it all the time) I think it's counterproductive for building understanding.
shadowtalker