Comparación del modelo bayesiano en la escuela secundaria

Enseño física a estudiantes de secundaria y me gustaría que mis estudiantes realicen una comparación rudimentaria del modelo bayesiano para obtener datos de sus experimentos. Descubrí una forma para que lo hagan (ver más abajo), pero no estoy seguro de que sea correcto. Agradecería mucho cualquier comentario al respecto (¡especialmente los comentarios negativos!), O sugerencias sobre cómo hacerlo mejor.

Me gustaría comparar una teoría lineal, con parámetros de pendiente $a$ e interceptar $b$ , a una hipótesis nula de una constante, es decir, pendiente $a$ = 0. En ambos casos supongo ruido simétrico gaussiano.

Los estudiantes pueden obtener, usando Excel, las estimaciones de máxima verosimilitud para la pendiente y la intersección ( $\hat{a}$ y $\hat{b}$ ) y sus errores $da$ y $db$ .

Para lo anterior en la pendiente, considero un amplio gaussiano, centrado en el máximo = estimación de probabilidad ( $\hat{a}$ ) y con una desviación estándar de diez veces eso. Mi razonamiento es que realmente espero que encuentren los parámetros de línea "correctos" al menos dentro de una magnitud, y en la práctica los encontrarán aún más cerca, por lo que si reemplazo la pendiente "correcta" con su MLE no cambiaré el números demasiado
Para la probabilidad de la evidencia dada cualquier teoría lineal particular, considero la distribución gaussiana multivariada estándar, con una desviación estándar ( $\sigma_e$ ) relacionado con la suma de los residuos al cuadrado.
La probabilidad de la evidencia para la teoría lineal en general, es decir, la integral del anterior y la probabilidad anteriores, se estima que es el anterior y la probabilidad en el punto MLE, multiplicado por el error en la pendiente. $da$ .
Se supone que la probabilidad de la evidencia dada la hipótesis nula es otra gaussiana multivariada, que ahora usa la desviación estándar total ( $\sigma_T$ ), basado en la diferencia del promedio Y.
Esta es la parte de la que menos estoy seguro: calculo que el factor Bayes es la razón de las dos probabilidades anteriores (3 y 4 anteriores), lo que me permite llegar a la siguiente fórmula:

$B_{10}=\frac{da}{(10 |\hat{a}| \cdot \sqrt{2 \pi})}(\sigma_T/\sigma_e)^N\cdot \sqrt{e}$

¿Nos daría esto estimaciones razonables para el factor Bayes? Cualquier comentario es bienvenido.

bayesian linear-model model-comparison teaching bayes-factors Profesor de física
fuente

Edité su fórmula usando MathJax para darle una apariencia más simplificada que sea más fácil de leer. Siéntase libre de editarlo si lo he traducido mal

Marqués de Carabas

¡Gracias! Sin embargo, los dos últimos términos (la razón s y la raíz cuadrada de e) deben estar fuera de la fracción o en el numerador.

PhysicsTeacher

Oh! ¡Es como LaTex! Yo corregí las fórmulas; gracias de nuevo.

PhysicsTeacher

Primero permítanme decir que la prueba sensata de una hipótesis aguda como $a=0$ requiere una distribución previa reflexiva para $a$ , porque el factor Bayes depende críticamente de esto antes. Muchos bayesianos no probarán una hipótesis aguda, pero yo sí.

Antes de continuar, debo decirte que realmente no entiendo lo que dices que estás haciendo, por lo que puedo darte consejos que no estás buscando. Espero que puedas seguir la notación de mayo.

Deja que los datos sean $n$ observaciones: $y = ((x_1,y_1), \ldots, (x_n,y_n))$ , donde (según el modelo más general e incluye la pendiente)

p (y_{i} | a, b, σ^{2}) = N (y_{i} | b + a x_{i}, σ^{2}) .

$p(y_i|a,b,\sigma^2) = \textsf{N}(y_i|b+a\,x_i,\sigma^2).$ (Estoy suprimiendo la variable independiente

x_{i}

$x_i$ de la lista de argumentos condicionantes para la simplicidad de notación).

p (y | a, b, σ^{2}) = \prod_{i = 1}^{n} p (y_{i} | a, b, σ^{2}) .

$p(y|a,b,\sigma^2) = \prod_{i=1}^n p(y_i|a,b,\sigma^2).$ Dado un previo para

(a, b, σ^{2})

$(a,b,\sigma^2)$ , la distribución posterior es

p (a, b, σ^{2} | y) = \frac{p (y | a, b, σ^{2}) p (a, b, σ^{2})}{p (y)},

$\begin{equation} p(a,b,\sigma^2|y) = \frac{p(y|a,b,\sigma^2)\,p(a,b,\sigma^2)}{p(y)}, \end{equation}$ donde la probabilidad de los datos de acuerdo con el modelo más general es

\begin{aligned} p (y) & = ∭ p (y | a, b, σ^{2}) p (a, b, σ) d σ^{2} d b d a \\ = \int (\iint p (y | a, b, σ^{2}) p (b, σ^{2}) d σ^{2} d b) p (a | b, σ^{2}) d a \\ = \int p (y | a) p (a | b, σ^{2}) d a, \end{aligned}

$\begin{equation} \begin{split} p(y) &= \iiint p(y|a,b,\sigma^2)\,p(a,b,\sigma)\,d\sigma^2\,db\,da \\ &= \int\left(\iint p(y|a,b,\sigma^2)\,p(b,\sigma^2)\,d\sigma^2\,db\right) p(a|b,\sigma^2)\,da \\ &= \int p(y|a)\,p(a|b,\sigma^2)\,da , \end{split} \end{equation}$ donde he usado . Tenga en cuenta que es la probabilidad (marginal) de y es el previo condicional para . Si el previo para es independiente de , entonces . Asumiré que es verdad.

p (a, b, σ^{2}) = p (a | b, σ^{2}) p (b, σ^{2})

$p(a,b,\sigma^2) = p(a|b,\sigma^2)\,p(b,\sigma^2)$

p (y | a)

$p(y|a)$

a

$a$

p (a | b, σ^{2})

$p(a|b,\sigma^2)$

a

$a$

a

$a$

(b, σ^{2})

$(b,\sigma^2)$

p (a | b, σ^{2}) = p (a)

$p(a|b,\sigma^2) = p(a)$

Con estas expresiones, ahora podemos escribir el posterior marginal para : Ahora reorganizaremos esta expresión: Dado que esta expresión es verdadera para cada valor de , es cierto en particular para : Tenga en cuenta que el numerador en la fracción del lado izquierdo es la probabilidad de los datos según el modelo restringido (es decir, restringido a $a$

p (a | y) = \frac{p (y | a) p (a)}{p (y)} .

$\begin{equation} p(a|y) = \frac{p(y|a)\,p(a)}{p(y)}. \end{equation}$

\frac{p (y | a)}{p (y)} = \frac{p (a | y)}{p (a)} .

$\begin{equation} \frac{p(y|a)}{p(y)} = \frac{p(a|y)}{p(a)}. \end{equation}$

a

$a$

a = 0

$a = 0$

\frac{p (y | a = 0)}{p (y)} = \frac{p (a = 0 | y)}{p (a = 0)} .

$\begin{equation} \frac{p(y|a=0)}{p(y)} = \frac{p(a=0|y)}{p(a=0)}. \end{equation}$

a = 0

$a=0$ ) Y, como ya se señaló, el denominador es la probabilidad de los datos de acuerdo con el modelo más general. Por lo tanto, el lado izquierdo es el factor Bayes a favor del modelo restringido en relación con el modelo más general.

La fracción de la derecha nos da una forma de evaluar el factor Bayes: dice dividir la densidad posterior evaluada en por la densidad previa evaluada en . (Por cierto, la "fórmula" se llama relación de densidad Savage-Dickey). Ahora es evidente por qué se requiere un previo reflexivo para . Si dejamos que la densidad previa para sea muy incierta, la densidad previa será muy baja en todas partes, incluso en , pero la densidad posterior en no irá a cero y, en consecuencia, el factor de Bayes irá al infinito. En este caso, "basura" produce "basura". $a=0$ $a=0$ $a$ $a$ $a =0$ $a=0$

Puede imaginar que si no sigue los pasos que he esbozado, no estará sujeto a este problema, pero estaría equivocado. La lógica que he presentado se aplica independientemente del "algoritmo" que aplique.

Pero los pasos proporcionan un algoritmo que puede ser útil. Supongamos que el previo para los parámetros viene dado por el "Jeffreys prior" Esto equivale a utilizar un previo incorrecto en los "parámetros molestos" . Esto está bien, pero dicho previo no sería apropiado por motivo por el que discutí anteriormente. Con esto antes, --- la probabilidad (marginal) de --- será proporcional a una distribución de Student , cuyos parámetros dependen de los datos . Esta distribución es un resumen completo de los datos, que pueden descartarse. Ahora debe elegir un previo adecuado y bien informado para

p (b, σ^{2}) \propto 1 / σ^{2} .

$p(b,\sigma^2) \propto 1/\sigma^2.$

(b, σ^{2})

$(b,\sigma^2)$

a

$a$

p (y | a)

$p(y|a)$

a

$a$

t

$t$

y

$y$

t

$t$

a

$a$ . Una vez hecho esto, puede calcular numéricamente cualquier lado de la ecuación "Savage-Dickey".

Espero que encuentres algo en lo que he dicho útil.

mef
fuente

Hmm, aparentemente no puedo dejar comentarios largos o editarlos por mucho tiempo. Iré al grano: ¿cómo se supone que calcule el lado derecho? Mi prior es

p (a) = \frac{1}{10 | \hat{a} | \sqrt{2 π}} e^{- \frac{(a - \hat{a})^{2}}{2 (10 | \hat{a} |^{2}}}

$p(a)=\frac{1}{10 |\hat{a}| \sqrt{2 \pi}} e^{-\frac{(a-\hat{a})^2}{2 (10 |\hat{a}|^2}}$ Supongo que después de los datos es

p (a | y) = \frac{1}{σ_{a} | \sqrt{2 π}} e^{- \frac{(a - \hat{a})^{2}}{2 σ_{a}^{2}}}

$p(a|y)=\frac{1}{\sigma_a| \sqrt{2 \pi}} e^{-\frac{(a-\hat{a})^2}{2 \sigma_a^2}}$ Entonces, ¿el factor Bayes es la razón de estos dos en a = 0?

PhysicsTeacher

No entiendo su previo ya que parece involucrar los datos a través de la estimación de máxima probabilidad.

mef

Sí, estamos jugando un poco de simulación aquí (¡ES PARA la escuela secundaria!). El real anterior es el mismo, excepto que se utiliza el valor dado en la literatura para la pendiente esperada en lugar de

\hat{a}

$\hat{a}$ . Para dar una fórmula de forma cerrada que no dependa del experimento explícito, supongo que dado que es un amplio y previo

h a t a

$hat{a}$ no estará lejos del valor de la literatura, podemos intercambiarlos sin cambiar mucho los números.

PhysicsTeacher

No entiendo la razón de sus suposiciones sobre lo anterior. Sin embargo, la respuesta a la pregunta en su primer comentario es "sí". Creo que encontrará que el factor de Bayes (BF) es bastante sensible a su elección de la varianza anterior. Si cambia de 10 a 20 (por ejemplo), sospecho que obtendrá un gran cambio en el BF. Y ese es el punto que estaba tratando de hacer.

mef

Muchas gracias mef! Todavía no entiendo si mi cálculo original es razonable, pero al menos ahora tengo un punto de comparación. Comprobaré la respuesta al cambio en el factor de 10 a 20, y al intercambio de literatura vs.

\hat{a}

$\hat{a}$ valor.

PhysicsTeacher

Comparación del modelo bayesiano en la escuela secundaria

Respuestas: