Creo que primero tenemos que preguntarnos si es necesario usar la regresión logística de probabilidades proporcionales para aproximar un riesgo relativo acumulativo, por ejemplo, el riesgo relativo de informar un resultado más alto. La formulación probabilística del modelo de probabilidades proporcionales se basa en la observación de contenedores arbitrarios de una variable aleatoria logística latente. Vea mi pregunta relevante aquí . La elegancia de este método es que la función de supervivencia (1-CDF) de un RV logístico es el logit inverso, p. Ej.PAGS( Z> z) = exp( - z) / ( 1 + exp( - z) ).
Si asumimos una derivación probabilística similar de un modelo de riesgo relativo, el deseo es encontrar una variable aleatoria latente cuya función de supervivencia sea PAGS( Z> z) = exp( - z). Pero eso es solo una variable aleatoria exponencial, que no tiene memoria. Por lo tanto, si construimos la matriz de variables de resultado restringidas,Oyo j= Yo(Yyo≥ j ), (Creo) las frecuencias de las celdas son condicionalmente independientes y, por lo tanto, son susceptibles de modelación a través de un modelo log-lineal que es solo la regresión de Poisson. Esto es tranquilizador porque la interpretación de los coeficientes de Poisson es como una tasa relativa. Modelar la interacción entre la variable de respuesta como resultado numérico y los coeficientes de regresión conduce a la interpretación correcta.
Es decir, ajustar el modelo log-lineal:
Iniciar sesión(norteyo jEl |Yyo,Xi ,) =η0 0yo(Yyo= 0 ) + … +ηjyo(Yyo= = j ) +β⃗ Xi ,+γ⃗ diag (Y)Xi ,
Usando el ejemplo del paquete MASS: vemos el efecto deseado de que el riesgo relativo es mucho menor que el OR en todos los casos:
newData <- data.frame('oy'=oy, 'ny'=as.numeric(y), housing)
## trick: marginal frequencies are categorical but interactions are linear
## solution: use linear main effect and add indicators for remaining n-2 categories
## equivalent model specifications
fit <- glm(Freq ~ oy.2 + ny*(Infl + Type + Cont), data=newData, family=poisson)
effects <- grep('ny:', names(coef(fit)), value=T)
print(cbind(
coef(summary(fit))[effects, ],
coef(summary(house.plr))[gsub('ny:','', effects), ]
), digits=3)
Nos da:
Estimate Std. Error z value Pr(>|z|) Value Std. Error t value
ny:InflMedium 0.360 0.0664 5.41 6.23e-08 0.566 0.1047 5.41
ny:InflHigh 0.792 0.0811 9.77 1.50e-22 1.289 0.1272 10.14
ny:TypeApartment -0.299 0.0742 -4.03 5.55e-05 -0.572 0.1192 -4.80
ny:TypeAtrium -0.170 0.0977 -1.74 8.21e-02 -0.366 0.1552 -2.36
ny:TypeTerrace -0.673 0.0951 -7.07 1.51e-12 -1.091 0.1515 -7.20
ny:ContHigh 0.106 0.0578 1.84 6.62e-02 0.360 0.0955 3.77
Donde las primeras 4 columnas son inferencia del modelo log-lineal y las segundas 3 columnas provienen del modelo de probabilidades proporcionales.
Esto responde quizás a la pregunta más importante: ¿cómo se ajusta uno a ese modelo? Creo que se puede utilizar para explorar las aproximaciones relativas de OR para eventos raros a los RR.
X
incluya una intercepción). Lo elegí porque enfatiza los puntos más relevantes para la pregunta. (Obviamente no es equivalente una vez que reemplaza logit con log, pero esta formulación parece generalizar lo mejor)