¿Cómo interpretar los coeficientes en una regresión de Poisson?

64

¿Cómo puedo interpretar los efectos principales (coeficientes para el factor codificado ficticio) en una regresión de Poisson?

Supongamos el siguiente ejemplo:

treatment     <- factor(rep(c(1, 2), c(43, 41)), 
                        levels = c(1, 2),
                        labels = c("placebo", "treated"))
improved      <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)),
                        levels = c(1, 2, 3),
                        labels = c("none", "some", "marked"))    
numberofdrugs <- rpois(84, 10) + 1    
healthvalue   <- rpois(84, 5)   
y             <- data.frame(healthvalue, numberofdrugs, treatment, improved)
test          <- glm(healthvalue~numberofdrugs+treatment+improved, y, family=poisson)
summary(test)

El resultado es:

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)       1.88955    0.19243   9.819   <2e-16 ***
numberofdrugs    -0.02303    0.01624  -1.418    0.156    
treatmenttreated -0.01271    0.10861  -0.117    0.907   MAIN EFFECT  
improvedsome     -0.13541    0.14674  -0.923    0.356   MAIN EFFECT 
improvedmarke    -0.10839    0.12212  -0.888    0.375   MAIN EFFECT 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Sé que la tasa de incidentes numberofdrugses exp(-0.023)=0.977. Pero, ¿cómo interpreto los principales efectos de las variables ficticias?

gung - Restablece a Monica
fuente
Una respuesta similar (pero enmarcada más matemáticamente) se puede encontrar aquí: Cómo interpretar las estimaciones de los parámetros en los resultados de Poisson GLM .
gung - Restablece a Monica
Es interesante que la pregunta referenciada se cerró como fuera de tema. (No hubiera estado de acuerdo en que fuera de tema, ya que cualquier respuesta también se aplicaría a la salida de cualquier programa de estadísticas que devolviera una tabla de coeficientes al usuario, y estoy de acuerdo con usted en que es muy valioso sobre la base de ser un duplicado.) Me parece que la comunidad SO es demasiado "estrecha" en las preguntas que piden interpretación de la salida de R. No están realmente en el tema de StackOverflow ya que no hay ninguna sugerencia de que se necesite ayuda para la codificación.
DWin
@DWin, no creo que la interpretación de la salida estadística esté fuera de tema en Cross Validated . He votado para cerrar esa pregunta como un duplicado de esto. Otros parecen haber votado OT, supongo, porque les pareció que el OP "volcó [editó] su salida de computadora allí y [esperó que alguien] ejecute el análisis estadístico para [ellos]".
gung - Restablece a Monica
1
@gung: Estaba claro que no eras tú quien lo llamaba OT. Sus comentarios fueron claros en ese punto. (Pensé que estaba de acuerdo con usted). La "razón" que figura en una votación cerrada a menudo es una decisión mayoritaria o plural.
DWin
Relevante: stats.stackexchange.com/questions/142338/…
kjetil b halvorsen

Respuestas:

56

El numberofdrugscoeficiente exponencial es el término multiplicativo que se utiliza para calcular el estimado healthvaluecuando numberofdrugsaumenta en 1 unidad. En el caso de variables categóricas (factor), el coeficiente exponencial es el término multiplicativo relativo al nivel base (primer factor) para esa variable (ya que R usa contrastes de tratamiento por defecto). El exp(Intercept)es la tasa de referencia, y todas las demás estimaciones serían relativas a ella.

En su ejemplo, el estimado healthvaluepara alguien con 2drogas, "placebo"y improvement=="none"sería (usando la suma dentro de exp como el equivalente de la multiplicación):

 exp( 1.88955 + 2*-0.02303 + 0 + 0 )
 [1] 6.318552

Mientras que alguien en 4drogas, "treated"y la "some"mejora tendría un estimado healthvaluede

exp( 1.88955 + 4*-0.02303 + -0.01271 + -0.13541)
[1] 5.203388

ADENDA: Esto es lo que significa ser "aditivo en la escala logarítmica". "Aditivo en la escala de probabilidades de registro" fue la frase que mi maestra, Barbara McKnight, usó al enfatizar la necesidad de usar todos los coeficientes de término que se aplicaban en la regresión logística al hacer cualquier tipo de predicción. Primero agrega todos los coeficientes multiplicados por valores de covariables y luego expondrá. La forma de devolver los coeficientes de los objetos de regresión en R es generalmente usar la coef()función de extracción (realizada con una realización aleatoria diferente a continuación):

 coef(test)
  #   (Intercept)    numberofdrugs treatmenttreated     improvedsome   improvedmarked 
  #   1.18561313       0.03272109       0.05544510      -0.09295549       0.06248684 

Entonces, el cálculo de la estimación para un sujeto con 4drogas "treated", con "some"mejoría sería:

 exp( sum( coef(test)[ c(1,2,3,4) ]* c(1,4,1,1) ) ) 
 [1] 3.592999

Y el predictor lineal para ese caso debería ser la suma de:

 coef(test)[c(1,2,3,4)]*c(1,4,1,1) 
 #    (Intercept)    numberofdrugs treatmenttreated     improvedsome 
 #     1.18561313       0.13088438       0.05544510      -0.09295549

Estos principios deberían aplicarse a cualquier paquete de estadísticas que devuelva una tabla de coeficientes al usuario. El método y los principios son más generales de lo que podría parecer de mi uso de R.


Estoy copiando los comentarios aclaradores seleccionados ya que 'desaparecen' en la pantalla predeterminada:

P: ¡Entonces usted interpreta los coeficientes como proporciones! ¡Gracias! - MarkDollar

R: Los coeficientes son los natural_logaritmos de las razones. - DWin

P2: En ese caso, en una regresión de Poisson, ¿se hace referencia también a los coeficientes exponenciados como "odds ratios"? - oort

A2: No. Si se tratara de una regresión logística, lo serían pero en la regresión de Poisson, donde el LHS es el número de eventos y el denominador implícito es el número en riesgo, entonces los coeficientes exponenciados son "razones de tasa" o "riesgos relativos".

DWin
fuente
¿Entonces te dejó votar dos veces? Que agradable. Pensé que ofrecer una implementación de código R de la interpretación podría rescatarlo de las fuerzas de la rectitud de clasificación. El OP compuso un buen ejemplo autónomo. Tal vez debería haber demostrado una función extractora, así que creo que lo haré.
DWin
Sí, me upvoted su respuesta en el SO, a continuación, se trasladó aquí y upvoted de nuevo :)
Brandon Bertelsen
Gracias hasta ahora! Sé la realidad entre los dummies y las cavariables, pero solo estoy interesado en cómo interpretar los efectos principales (los marqué). ¿Es posible tomar la tasa de incidentes de los efectos principales, por ejemplo, para el "exp (-0.012) = 0.99" tratado ficticio e interpretarlo como la tasa a partir de la cual disminuye el valor de salud, al cambiar de la categoría de referencia a la tratada? Debe ser, no?
MarkDollar
Los coeficientes exponenciados siempre se interpretan como proporciones. Las proporciones de 'qué' a 'qué' dependen de las unidades de análisis. Las 'tarifas' son diferentes, tienen un número y un valor de tiempo implícitos. . Así que si usted está dispuesto a cambiar su terminología, entonces tal vez, "sí" mejores respuestas provienen de describir la situación análisis totalmente.
Dwin
Ah ok, esto es lo que quería saber. ¡Entonces interpretas los coeficientes como proporciones! ¡Gracias!
MarkDollar