Mi pregunta es: ¿Cuál es la relación matemática entre el distribución Beta y los coeficientes del modelo de regresión logística ?
Para ilustrar: la función logística (sigmoidea) viene dada por
y se usa para modelar probabilidades en el modelo de regresión logística. Sea un resultado dicotómico y una matriz de diseño. El modelo de regresión logística viene dado por
Nota tiene una primera columna de constante (intersección) y es un vector de columna de coeficientes de regresión. Por ejemplo, cuando tenemos un regresor (estándar-normal) x y elegimos (intercepción) y , podemos simular la 'distribución de probabilidades' resultante.
Este gráfico recuerda la distribución Beta (al igual que los gráficos para otras opciones de ) cuya densidad viene dada por
Uso de máxima verosimilitud o métodos de momentos es posible estimar y q de la distribución de P ( A = 1 | X ) . Por lo tanto, mi pregunta se reduce a: ¿cuál es la relación entre las elecciones de β y p y q ? Esto, para empezar, aborda el caso bivariado dado anteriormente.
Respuestas:
Beta es una distribución de valores en el rango que es muy flexible en su forma, por lo que para casi cualquier distribución empírica unimodal de valores en ( 0 , 1 )(0,1) (0,1) puede encontrar fácilmente los parámetros de dicha distribución beta que "se asemeja" a la forma de la distribución.
Tenga en cuenta que la regresión logística le proporciona probabilidades condicionales , mientras que en su gráfica nos presenta la distribución marginalPr(Y=1∣X) de las probabilidades predichas. Esas son dos cosas diferentes de las que hablar.
No existe una relación directa entre los parámetros de regresión logística y los parámetros de distribución beta cuando se observa la distribución de predicciones del modelo de regresión logística. A continuación puede ver los datos simulados utilizando distribuciones normales, exponenciales y uniformes transformadas mediante la función logística. Además de utilizar exactamente los mismos parámetros de regresión logística (es decir, ), las distribuciones de las probabilidades predichas son muy diferentes. Por lo tanto, la distribución de las probabilidades predichas depende no solo de los parámetros de regresión logística, sino también de las distribuciones de X y no existe una relación simple entre ellas.β0=0,β1=1 X
Como beta es una distribución de valores en , no se puede usar para modelar datos binarios como lo hace la regresión logística. Se puede usar para modelar probabilidades , de tal manera que usamos la regresión beta (ver también aquí y aquí ). Entonces, si está interesado en el comportamiento de las probabilidades (entendido como variable aleatoria), puede usar la regresión beta para tal fin.(0,1)
fuente
La regresión logística es un caso especial de un modelo lineal generalizado (GLM). En este caso particular de datos binarios, la función logística es la función de enlace canónico que transforma el problema de regresión no lineal en un problema lineal. Los GLM son algo especiales, en el sentido de que se aplican solo a distribuciones en la familia exponencial (como la distribución Binomial).
En la estimación bayesiana, la distribución Beta es el conjugado anterior a la distribución binomial, lo que significa que una actualización bayesiana a una Beta anterior, con observaciones binomiales, dará como resultado una Beta posterior. Entonces, si tiene recuentos para observaciones de datos binarios, puede obtener una estimación bayesiana analítica de los parámetros de la distribución binomial mediante el uso de un Beta anterior.
Entonces, en la línea de lo que ha dicho otro, no creo que haya una relación directa, pero tanto la distribución Beta como la regresión logística tienen relaciones cercanas con la estimación de los parámetros de algo que sigue una distribución binomial.
fuente
Puede verificar los resultados dados anteriormente en R :
fuente