Modelo logit bayesiano: ¿explicación intuitiva?

Debo confesar que anteriormente no había oído hablar de ese término en ninguna de mis clases, licenciatura o posgrado.

¿Qué significa que una regresión logística sea bayesiana? Estoy buscando una explicación con una transición de logística regular a logística bayesiana similar a la siguiente:

Esta es la ecuación en el modelo de regresión lineal: . $E(y) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n$

Esta es la ecuación en el modelo de regresión logística: . Esto se hace cuando y es categórico. $\ln(\frac{E(y)}{1-E(y)}) = \beta_0 + \beta_1x_1 + ... + \beta_nx_n$

Lo que hemos hecho es cambiar a . $E(y)$ $\ln(\frac{E(y)}{1-E(y)})$

Entonces, ¿qué se hace con el modelo de regresión logística en la regresión logística bayesiana? Supongo que no tiene nada que ver con la ecuación.

Esta vista previa del libro parece definir, pero realmente no entiendo. ¿Qué es todo esto anterior, cosas de probabilidad? ¿Qué es ? ¿Alguien puede explicar esa parte del libro o el modelo logit bayesiano de otra manera? $\alpha$

Nota: Creo que esto se ha preguntado antes pero no se ha respondido muy bien.

regression logistic bayesian multiple-regression generalized-linear-model BCLC
fuente

No quiero poner esto en una respuesta porque creo que @Tim tiene la mayor parte cubierta. Lo único que falta en esa gran respuesta es que, en la regresión logística bayesiana y en los modelos lineales generalizados bayesianos (GLM) en general, las distribuciones anteriores no solo se colocan sobre los coeficientes, sino sobre las variaciones y covarianzas de esos coeficientes. Esto es increíblemente importante de mencionar porque una de las principales ventajas de un enfoque bayesiano para los GLM es la mayor capacidad de especificación y, en muchos casos, también la adaptación de modelos complejos para la covarianza de los coeficientes.

Brash Equilibrium

@BrashEquilibrium: está mencionando una posible extensión jerárquica del modelo bayesiano estándar para un modelo logit. En nuestro libro , utilizamos por ejemplo, un g-previa sobre la 's, que antes fijado matriz de covarianza se deriva de la covariables .

β

$\beta$

X

$X$

Xi'an

Bastante justo en el g anterior.

Brash Equilibrium

Dicho esto, todavía hay un previo en las covarianzas !!!!!! Si no lo discute, no está describiendo cómo funciona la regresión logística por completo.

Brash Equilibrium

Respuestas:

La regresión logística se puede describir como una combinación lineal.

η = β_{0} + β_{1} X_{1} + . . . + β_{k} X_{k}

$\eta = \beta_0 + \beta_1 X_1 + ... + \beta_k X_k$

que se pasa a través de la función de enlace : $g$

g (E (Y)) = η

$g(E(Y)) = \eta$

donde la función de enlace es una función logit

E (Y | X, β) = p = {logit}^{- 1} (η)

$E(Y|X,\beta) = p = \text{logit}^{-1}( \eta )$

donde toma solo valores en y las funciones logit inversas transforman la combinación lineal en este rango. Aquí es donde termina la regresión logística clásica. $Y$ $\{0,1\}$ $\eta$

Sin embargo, si recuerda que para variables que toman solo valores en , entonces puede considerarse como . En este caso, la salida de la función logit podría considerarse como una probabilidad condicional de "éxito", es decir, . La distribución de Bernoulli es una distribución que describe la probabilidad de observar el resultado binario, con algún parámetro , por lo que podemos describir como $E(Y) = P(Y = 1)$ $\{0,1\}$ $E(Y | X,\beta)$ $P(Y = 1 | X,\beta)$ $P(Y=1|X,\beta)$ $p$ $Y$

y_{i} \sim Bernoulli (p)

$y_i \sim \text{Bernoulli}(p)$

Entonces, con la regresión logística buscamos algunos parámetros que juntos con variables independientes forman una combinación lineal . En la regresión clásica (asumimos que la función de enlace es función de identidad), sin embargo, para modelar que toma valores en necesitamos transformar para que se ajuste en el rango . $\beta$ $X$ $\eta$ $E(Y|X,\beta) = \eta$ $Y$ $\{0,1\}$ $\eta$ $[0,1]$

Ahora, para estimar la regresión logística en forma bayesiana, seleccione algunos de los anteriores para los parámetros como con la regresión lineal (vea Kruschke et al, 2012 ), luego use la función logit para transformar la combinación lineal , para usar su salida como un Parámetro de distribución de Bernoulli que describe su variableEntonces, sí, en realidad usa la ecuación y la función de enlace logit de la misma manera que en el caso de los frecuentistas, y el resto funciona (por ejemplo, elegir priors), como estimar la regresión lineal de la manera bayesiana. $\beta_i$ $\eta$ $p$ $Y$

El enfoque simple para elegir priors es elegir distribuciones normales (pero también puede usar otras distribuciones, por ejemplo, - o distribución de Laplace para un modelo más robusto) para 's con parámetros y que están preestablecidos o tomados de antecedentes jerárquicos . Ahora, teniendo la definición del modelo, puede usar software como JAGS para realizar la simulación de Markov Chain Monte Carlo para que pueda estimar el modelo. A continuación publico el código JAGS para un modelo logístico simple (consulte aquí para obtener más ejemplos). $t$ $\beta_i$ $\mu_i$ $\sigma_i^2$

model {
   # setting up priors
   a ~ dnorm(0, .0001)
   b ~ dnorm(0, .0001)

   for (i in 1:N) {
      # passing the linear combination through logit function
      logit(p[i]) <- a + b * x[i]

      # likelihood function
      y[i] ~ dbern(p[i])
   }
}

Como puede ver, el código se traduce directamente a la definición del modelo. Lo que hace el software es que extrae algunos valores de los anteriores normales ay b, luego, usa esos valores para estimar py, finalmente, usa la función de probabilidad para evaluar la probabilidad de que sus datos tengan esos parámetros (esto es cuando usa el teorema de Bayes, consulte aquí para Descripción más detallada).

El modelo básico de regresión logística se puede ampliar para modelar la dependencia entre los predictores utilizando un modelo jerárquico (incluidos hiperpriors ). En este caso, puede dibujar 's de la distribución Normal Multivariada que nos permite incluir información sobre la covarianza entre variables independientes $\beta_i$ $\boldsymbol{\Sigma}$

(\begin{matrix} β_{0} \\ β_{1} \\ ⋮ \\ β_{k} \end{matrix}) \sim M V N ([\begin{matrix} μ_{0} \\ μ_{1} \\ ⋮ \\ μ_{k} \end{matrix}], [\begin{matrix} σ_{0}^{2} & σ_{0, 1} & \dots & σ_{0, k} \\ σ_{1, 0} & σ_{1}^{2} & \dots & σ_{1, k} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ σ_{k, 0} & σ_{k, 1} & \dots & σ_{k}^{2} \end{matrix}])

$\begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{pmatrix} \sim \mathrm{MVN} \left( \begin{bmatrix} \mu_0 \\ \mu_1 \\ \vdots \\ \mu_k \end{bmatrix}, \begin{bmatrix} \sigma^2_0 & \sigma_{0,1} & \ldots & \sigma_{0,k} \\ \sigma_{1,0} & \sigma^2_1 & \ldots &\sigma_{1,k} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{k,0} & \sigma_{k,1} & \ldots & \sigma^2_k \end{bmatrix} \right)$

... pero esto entra en detalles, así que paremos aquí.

La parte "bayesiana" aquí es elegir prioridades, usar el teorema de Bayes y definir el modelo en términos probabilísticos. Ver aquí para la definición de "modelo bayesiano" y aquí para una intuición general sobre el enfoque bayesiano . Lo que también puede notar es que definir modelos es bastante sencillo y flexible con este enfoque.

Kruschke, JK, Aguinis, H. y Joo, H. (2012). Ha llegado el momento: métodos bayesianos para el análisis de datos en las ciencias de la organización. Métodos de investigación organizacional, 15 (4), 722-752.

Gelman, A., Jakulin, A., Pittau, GM y Su, Y.-S. (2008) Una distribución previa predeterminada débilmente informativa para modelos logísticos y otros modelos de regresión. Los Anales de Estadísticas Aplicadas, 2 (4), 1360–1383.

Tim
fuente

Necesita pruebas de las variaciones, no solo los coeficientes.

Brash Equilibrium

@BCLC no, para la regresión logística, logit se usa como función de enlace , mientras que es una combinación lineal , por ejemplo, para la regresión lineal es la función de identidad, entonces , esto es solo una especificación estándar de GLM .

g

$g$

η

$\eta$

η = β_{0} + β_{1} X_{1}

$\eta = \beta_0 + \beta_1 X_1$

g

$g$

E (Y) = η

$E(Y) = \eta$

Tim

@BCLC revisa los enlaces en mi respuesta, proporcionan una introducción a las estadísticas bayesianas en general. Este es un tema mucho más amplio que el mencionado en su pregunta inicial, pero puede encontrar una buena introducción en las referencias que proporcioné en mi respuesta.

Tim

@Tim hice un error tipográfico allí. Se supone que las pruebas leen anteriores. Básicamente, los coeficientes no son los únicos parámetros desconocidos. La distribución multinomial también tiene una matriz de covarianza de varianza y, por lo general, no suponemos que sea conocida.

Brash Equilibrium

"La parte" bayesiana "aquí es elegir prioridades, usar el teorema de Bayes y definir el modelo en términos probabilísticos". Una buena referencia aquí es Gelman et al. UNA DISTRIBUCIÓN PREDETERMINADA POR DEFECTO DÉBIL

Dalton Hance

¿Qué es todo esto anterior, cosas de probabilidad?

Eso es lo que lo hace bayesiano. El modelo generativo para los datos es el mismo; la diferencia es que un análisis bayesiano elige una distribución previa de los parámetros de interés y calcula o aproxima una distribución posterior , en la que se basa toda inferencia. La regla de Bayes relaciona los dos: el posterior es proporcional a los tiempos de probabilidad anteriores.

Intuitivamente, esto permite a un analista matemáticamente expresar experiencia en la materia o hallazgos preexistentes. Por ejemplo, el texto al que hace referencia señala que lo anterior para es una normal multivariada. Quizás estudios previos sugieran un cierto rango de parámetros que pueden expresarse con ciertos parámetros normales. (Con la flexibilidad viene la responsabilidad: uno debe ser capaz de justificar su presencia ante una audiencia escéptica). En modelos más elaborados, uno puede usar la experiencia en el dominio para ajustar ciertos parámetros latentes. Por ejemplo, vea el ejemplo del hígado al que se hace referencia en esta respuesta . $\bf\beta$

Algunos modelos frecuentistas pueden estar relacionados con una contraparte bayesiana con un previo específico, aunque no estoy seguro de cuál corresponde en este caso.

Sean Easter
fuente

SeanEaster, 'anterior' es la palabra utilizada para la distribución asumida? Por ejemplo, asumimos las X o '(si quiere decir como en , ¿quiere decir en cambio , , ..., ? ¿Crees que los tienen distribuciones ...?) ¿son normales pero luego intentamos encajarlos en otra distribución? ¿Qué quiere decir exactamente con "aproximaciones"? Tengo la sensación de que no es lo mismo que 'encaja'

β

$\beta$

β

$\beta$

β_{1}, β_{2}, . . ., β_{n}

$\beta_1, \beta_2, ..., \beta_n$

X_{1}

$X_1$

X_{2}

$X_2$

X_{n}

$X_n$

β

$\beta$

BCLC

@BCLC Para responderlas, comenzaré con el proceso de inferencia bayesiana y definiré los términos a medida que avance: los bayesianos tratan todos los parámetros de interés como variables aleatorias y actualizo sus creencias sobre estos parámetros a la luz de los datos. La distribución previa expresa su creencia sobre los parámetros antes de analizar los datos; la * distribución posterior *, según la regla de Bayes, el producto normalizado de lo anterior y la probabilidad, resume la creencia incierta sobre los parámetros a la luz de lo anterior y los datos. El cálculo de la parte posterior es donde tiene lugar el ajuste.

Sean Easter

@BCLC Por eso los parámetros tienen una distribución. En otros modelos bayesianos, generalmente simples, las distribuciones posteriores pueden tener una expresión de forma cerrada. (En una variable aleatoria de Bernoulli con un beta anterior en , el posterior de es una distribución beta, por ejemplo). Pero cuando los posteriores no pueden expresarse analíticamente, los aproximamos , generalmente usando métodos MCMC.

β

$\beta$

p

$p$

p

$p$

Sean Easter

De acuerdo, creo que te entiendo mejor después de leer Un ensayo para resolver un problema en Doctrina de posibilidades . Gracias SeanEster

BCLC

Sí. En muchos casos, esa sería imposible de calcular analíticamente.

P (B)

$P(B)$

Sean Easter