Interpretación de la regresión logística ordinal.

17

Ejecuté esta regresión logística ordinal en R:

mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars)

Tengo este resumen del modelo:

summary(mtcars_ordinal)

Re-fitting to get Hessian

Call:
polr(formula = as.factor(carb) ~ mpg, data = mtcars)

Coefficients:
      Value Std. Error t value
mpg -0.2335    0.06855  -3.406

Intercepts:
    Value   Std. Error t value
1|2 -6.4706  1.6443    -3.9352
2|3 -4.4158  1.3634    -3.2388
3|4 -3.8508  1.3087    -2.9425
4|6 -1.2829  1.3254    -0.9679
6|8 -0.5544  1.5018    -0.3692

Residual Deviance: 81.36633 
AIC: 93.36633 

Puedo obtener las probabilidades de registro del coeficiente para mpgesto:

exp(coef(mtcars_ordinal))
 mpg 
0.7917679 

Y las probabilidades de registro de los umbrales como:

exp(mtcars_ordinal$zeta)

       1|2         2|3         3|4         4|6         6|8 
0.001548286 0.012084834 0.021262900 0.277242397 0.574406353 

¿Podría alguien decirme si mi interpretación de este modelo es correcta:

A medida que mpgaumenta en una unidad, las probabilidades de pasar de la categoría 1 carba cualquiera de las otras 5 categorías, disminuye en -0.23. Si las probabilidades de registro cruzan el umbral de 0.0015, entonces el valor predicho para un automóvil será de categoría 2 carb. Si las probabilidades de registro cruzan el umbral de 0.0121, entonces el valor predicho para un automóvil será de categoría 3 carb, y así sucesivamente.

luciano
fuente

Respuestas:

10

Has confundido perfectamente las probabilidades y las probabilidades de registro. Las probabilidades de registro son los coeficientes; las probabilidades son coeficientes exponenciados. Además, la interpretación de las probabilidades es al revés . (Crecí con la econometría pensando en las variables dependientes limitadas, y la interpretación de las probabilidades de la regresión ordinal es ... uhm ... divertida para mí). Entonces, su primera declaración debería leer: "A medida que mpg aumenta en una unidad, las probabilidades de observar la categoría 1 de las carb otras 5 categorías aumenta en un 21% ".

En cuanto a la interpretación de los umbrales, realmente tiene que trazar todas las curvas predichas para poder decir cuál es la predicción modal:

mpg   <- seq(from=5, to=40, by=1)
xbeta <- mpg*(-0.2335)
logistic_cdf <- function(x) {
  return( 1/(1+exp(-x) ) )
}

p1 <- logistic_cdf( -6.4706 - xbeta )
p2 <- logistic_cdf( -4.4158 - xbeta ) - logistic_cdf( -6.4706 - xbeta )
p3 <- logistic_cdf( -3.8508 - xbeta ) - logistic_cdf( -4.4158 - xbeta )
p4 <- logistic_cdf( -1.2829 - xbeta ) - logistic_cdf( -3.8508 - xbeta )
p6 <- logistic_cdf( -0.5544 - xbeta ) - logistic_cdf( -1.2829 - xbeta )
p8 <- 1 - logistic_cdf( -0.5544 - xbeta )

plot(mpg, p1, type='l', ylab='Prob')
  lines(mpg, p2, col='red')
  lines(mpg, p3, col='blue')
  lines(mpg, p4, col='green')
  lines(mpg, p6, col='purple')
  lines(mpg, p8, col='brown')
  legend("topleft", lty=1, col=c("black", "red", "blue", "green", "purple", "brown"), 
         legend=c("carb 1", "carb 2", "carb 3", "carb 4", "carb 5", "carb 6"))

ingrese la descripción de la imagen aquí

La curva azul para la tercera categoría nunca se recuperó, y tampoco la curva púrpura para la sexta categoría. Entonces, en todo caso, diría que para valores mpgsuperiores a 27, la categoría más probable es 1; entre 18 y 27, categoría 2; entre 4 y 18, categoría 4; y debajo del 4, categoría 8. (Me pregunto qué es lo que está estudiando: ¿camiones comerciales? La mayoría de los automóviles de pasajeros en estos días deberían tener mpg> 25). Es posible que desee tratar de determinar los puntos de intersección con mayor precisión.

También noté que tienes estas categorías extrañas que van 1, 2, 3, 4, luego 6 (saltando 5), luego 8 (saltando 7). Si 5 y 7 faltaban por diseño, está bien. Si estas son categorías válidas en las que carbsimplemente no entra, esto no es bueno.

StasK
fuente
Tenga en cuenta cómo solía "pasar de la categoría 1 de carbohidratos a cualquiera de las otras 5 categorías". ¿Esto esta mal? Estoy luchando para entender "A medida que el mpg aumenta en una unidad, las probabilidades de observar la categoría 1 de carbohidratos versus otras 5 categorías aumentan en un 21%". Esto implica que si el mpg aumenta en aproximadamente 5 unidades, habrá un 100% de posibilidades de observar la categoría 1. Pero si el mpg ha aumentado en 5 unidades, debería haber una mayor probabilidad de observar la categoría 8, no la categoría 1.
luciano
3
Agregué la figura; Sospeché que haría que tu respuesta fuera más fácil de interpretar, espero que te guste. (Por cierto, la documentación de ? Mtcars dice que los datos son resultados de pruebas de una edición de 1974 de Motor Trends .)
gung -
¿Podría alguien responder la última pregunta de luciano? Esto me parece muy interesante.
Erosennin
1
mpg23134 45 515 5
1
Como polrdefine el modelo como logit P(Y <= k | x) = zeta_k - eta, si la interpretación de @ StasK no se lee, "A medida que mpg aumenta en una unidad, las probabilidades de observar la categoría 1 de carb otras 5 categorías aumentan en un 26% ( exp(-(-0.2335)) = 1.26)".
moremo
3

En el modelo logit ordenado, las probabilidades forman la razón de la probabilidad de estar en cualquier categoría por debajo de un umbral específico frente a la probabilidad de estar en una categoría por encima del mismo umbral (por ejemplo, con tres categorías: probabilidad de estar en la categoría A o B vs . C, así como la probabilidad de estar en la categoría A vs. B o C).

Esto lleva al modelo logit P(Y <= k | x) = zeta_k - etacomo se especifica en la descripción de polr(). Por lo tanto, los odds ratios se pueden construir para diferentes categorías o para diferentes regresores. El último, el más común, compara probabilidades para las mismas categorías pero diferentes regresores e iguales.

oreres(yunkEl |Xun)oreres(ysikEl |Xsi) = Exp(-(ηun-ηsi)).

El odds ratio para diferentes categorías se define como

oreres(yyokEl |Xyo)oreres(yyometroEl |Xyo) = Exp(ζk-ζmetro),

por lo que la relación es independiente de los regresores. Esta propiedad lleva al nombre alternativo modelo de probabilidades proporcionales.

En este ejemplo simple, pero quizás no muy intuitivo, podría formular: para un aumento de una unidad en el regresor mpg, las probabilidades de observar la categoría 1 frente a observar cualquier categoría superior (o las probabilidades de observar cualquier categoría por debajo de un cierto umbral vs. observando cualquier categoría por encima del mismo umbral) se multiplican por 1.26 o aumentan en un 26% ( exp(-(-0.233 - 0)) = 1.263). Si desea formular una razón de probabilidades de diferentes categorías, podría, por ejemplo, decir las probabilidades de estar en la categoría 1 frente a cualquier categoría anterior en comparación con las probabilidades de estar en la categoría 1 o 2 frente a cualquier categoría anterior igual a exp((-6.470) - (-4.415)) = 0.128. Por lo que la última interpretación no es muy útil en esta configuración específica. Un ejemplo de odds ratio para diferentes categorías podría ser las probabilidades de ir a la universidad en comparación con las probabilidades de ir a la escuela secundaria.

(ζk-ζk-1)k a la categoría superior.

moremo
fuente