Regresión logística ordinal con una función de enlace diferente

Considere una variable de resultado que tiene cuatro categorías claras y ordenadas. Esto parece un buen uso de la regresión logística ordinal para estimar las Odds Ratios para el efecto de las covariables en mover a un sujeto un "escalón" en la escalera.

Pero los temas se distribuyen de manera particularmente uniforme en todas las categorías, por lo que surge una pregunta:

¿Es el "supuesto de resultado raro" para un OR para aproximar un riesgo relativo todavía cierto en la regresión logística ordinal?
Si es así, ¿es posible cambiar la función de enlace para estimar directamente un riesgo relativo, y todavía es posible usar algo así como una aproximación de Poisson con errores estándar robustos para tratar los problemas de convergencia en tal caso?

regression ordinal-data ordered-logit Fomite
fuente

Respuestas:

Creo que primero tenemos que preguntarnos si es necesario usar la regresión logística de probabilidades proporcionales para aproximar un riesgo relativo acumulativo, por ejemplo, el riesgo relativo de informar un resultado más alto. La formulación probabilística del modelo de probabilidades proporcionales se basa en la observación de contenedores arbitrarios de una variable aleatoria logística latente. Vea mi pregunta relevante aquí . La elegancia de este método es que la función de supervivencia (1-CDF) de un RV logístico es el logit inverso, p. Ej. $P(Z > z) = \exp(-z)/(1+\exp(-z))$ .

Si asumimos una derivación probabilística similar de un modelo de riesgo relativo, el deseo es encontrar una variable aleatoria latente cuya función de supervivencia sea $P(Z > z) = \exp(-z)$ . Pero eso es solo una variable aleatoria exponencial, que no tiene memoria. Por lo tanto, si construimos la matriz de variables de resultado restringidas, $O_{ij} = \mathcal{I}(Y_{i} \ge j)$ , (Creo) las frecuencias de las celdas son condicionalmente independientes y, por lo tanto, son susceptibles de modelación a través de un modelo log-lineal que es solo la regresión de Poisson. Esto es tranquilizador porque la interpretación de los coeficientes de Poisson es como una tasa relativa. Modelar la interacción entre la variable de respuesta como resultado numérico y los coeficientes de regresión conduce a la interpretación correcta.

Es decir, ajustar el modelo log-lineal:

Iniciar sesión ({norte}_{yo j} El | Y_{yo}, X_{yo,}) = η_{0 0} yo (Y_{yo} = 0 0) + ... + η_{j} yo (Y_{yo} == j) + \vec{β} X_{yo,} + \vec{γ} diag (Y) X_{yo,}

$\log (N_{ij} | Y_{i}, \mathbf{X}_{i,}) = \eta_0 I(Y_{i} = 0) + \ldots + \eta_j I(Y_i == j) + \vec{\beta} \mathbf{X}_{i,} + \vec{\gamma} \text{diag(Y)} \mathbf{X}_{i,}$

Usando el ejemplo del paquete MASS: vemos el efecto deseado de que el riesgo relativo es mucho menor que el OR en todos los casos:

newData <- data.frame('oy'=oy, 'ny'=as.numeric(y), housing)

## trick: marginal frequencies are categorical but interactions are linear
## solution: use linear main effect and add indicators for remaining  n-2 categories
## equivalent model specifications
fit <- glm(Freq ~ oy.2 + ny*(Infl + Type + Cont), data=newData, family=poisson)
effects <- grep('ny:', names(coef(fit)), value=T)
print(cbind(
  coef(summary(fit))[effects, ],
  coef(summary(house.plr))[gsub('ny:','', effects), ]
), digits=3)

Nos da:

                 Estimate Std. Error z value Pr(>|z|)  Value Std. Error t value
ny:InflMedium       0.360     0.0664    5.41 6.23e-08  0.566     0.1047    5.41
ny:InflHigh         0.792     0.0811    9.77 1.50e-22  1.289     0.1272   10.14
ny:TypeApartment   -0.299     0.0742   -4.03 5.55e-05 -0.572     0.1192   -4.80
ny:TypeAtrium      -0.170     0.0977   -1.74 8.21e-02 -0.366     0.1552   -2.36
ny:TypeTerrace     -0.673     0.0951   -7.07 1.51e-12 -1.091     0.1515   -7.20
ny:ContHigh         0.106     0.0578    1.84 6.62e-02  0.360     0.0955    3.77

Donde las primeras 4 columnas son inferencia del modelo log-lineal y las segundas 3 columnas provienen del modelo de probabilidades proporcionales.

Esto responde quizás a la pregunta más importante: ¿cómo se ajusta uno a ese modelo? Creo que se puede utilizar para explorar las aproximaciones relativas de OR para eventos raros a los RR.

AdamO
fuente

Abordemos sus dos preguntas por separado:

¿Es el "supuesto de resultado raro" para un OR para aproximar un riesgo relativo todavía cierto en la regresión logística ordinal?

Realmente no. Usted mismo dijo que sus resultados se distribuyen de manera uniforme en las cuatro categorías, por lo que ninguna categoría será particularmente rara.

Si es así, ¿es posible cambiar la función de enlace para estimar directamente un riesgo relativo, y todavía es posible usar algo así como una aproximación de Poisson con errores estándar robustos para tratar los problemas de convergencia en tal caso?

Puede hacerlo, pero existe el riesgo de que cuando use su modelo para hacer predicciones, la probabilidad pronosticada de estar en una clase sea mayor que 1.

El modelo logit ordenado estándar está formulado

Y_{yo} \sim C una t mi sol o r yo C una l ({pags}_{yo}); l o sol yo t ({pags}_{yo}) = X β

$Y_i \sim categorical({\bf{p}}_i);logit({\bf{p}}_i) = X\beta$ junto con el supuesto de probabilidades proporcionales. Todo lo que estamos haciendo es reemplazar el "logit" con "log", que aún produce un modelo válido con una probabilidad válida que produce estimaciones válidas para

β

$\beta$ . Sin embargo, cuando los aplica a datos reales, es posible que un componente para

p_{i}

$\bf{p}_i$ es más de uno (y dado que está fuera del rango del supuesto de probabilidades proporcionales, no puede usarlo para completar los componentes restantes).

Esto no puede suceder si solo usa su modelo para predecir los datos sobre los que se entrenó, y es menos probable si

tienes muchos datos de entrenamiento
sus datos de entrenamiento cubren todas las combinaciones posibles de covariables (si son categóricas) o el rango completo de covariables (si son numéricas)

JDL
fuente

No creo que haya escrito el modelo logit ordenado estándar correcto. ¿Tienes una copia de Agresti o McCullogh & Nelder? Acordó que si la distribución de la respuesta es incluso entre los

K

$K$ categorías logit ordenadas, la aproximación es discutible. Pero, ¿qué pasa si la mayoría de los participantes se agruparon en la categoría de respuesta más baja?

AdamO

@AdamO probablemente no sea la formulación a la que está acostumbrado, pero es equivalente (siempre que Xincluya una intercepción). Lo elegí porque enfatiza los puntos más relevantes para la pregunta. (Obviamente no es equivalente una vez que reemplaza logit con log, pero esta formulación parece generalizar lo mejor)

JDL

El modelo de probabilidades de apoyo tiene restricciones importantes, es decir, el término de intercepción (no representado) para cada contraste categórico está ordenado, además

Y_{i}

$Y_i$ es la designación categórica, pero la probabilidad modelada es la probabilidad acumulativa . Creo que estoy seguro al decir que simplemente ha escrito un modelo logístico incondicional y que esto no es correcto.

AdamO

Estas restricciones se abordan mediante el supuesto de probabilidades proporcionales. (Estoy de acuerdo en que no se expresan en la ecuación que he declarado)

JDL