Enseño física a estudiantes de secundaria y me gustaría que mis estudiantes realicen una comparación rudimentaria del modelo bayesiano para obtener datos de sus experimentos. Descubrí una forma para que lo hagan (ver más abajo), pero no estoy seguro de que sea correcto. Agradecería mucho cualquier comentario al respecto (¡especialmente los comentarios negativos!), O sugerencias sobre cómo hacerlo mejor.
Me gustaría comparar una teoría lineal, con parámetros de pendiente e interceptar , a una hipótesis nula de una constante, es decir, pendiente = 0. En ambos casos supongo ruido simétrico gaussiano.
Los estudiantes pueden obtener, usando Excel, las estimaciones de máxima verosimilitud para la pendiente y la intersección ( y ) y sus errores y .
- Para lo anterior en la pendiente, considero un amplio gaussiano, centrado en el máximo = estimación de probabilidad () y con una desviación estándar de diez veces eso. Mi razonamiento es que realmente espero que encuentren los parámetros de línea "correctos" al menos dentro de una magnitud, y en la práctica los encontrarán aún más cerca, por lo que si reemplazo la pendiente "correcta" con su MLE no cambiaré el números demasiado
- Para la probabilidad de la evidencia dada cualquier teoría lineal particular, considero la distribución gaussiana multivariada estándar, con una desviación estándar () relacionado con la suma de los residuos al cuadrado.
- La probabilidad de la evidencia para la teoría lineal en general, es decir, la integral del anterior y la probabilidad anteriores, se estima que es el anterior y la probabilidad en el punto MLE, multiplicado por el error en la pendiente. .
- Se supone que la probabilidad de la evidencia dada la hipótesis nula es otra gaussiana multivariada, que ahora usa la desviación estándar total (), basado en la diferencia del promedio Y.
Esta es la parte de la que menos estoy seguro: calculo que el factor Bayes es la razón de las dos probabilidades anteriores (3 y 4 anteriores), lo que me permite llegar a la siguiente fórmula:
¿Nos daría esto estimaciones razonables para el factor Bayes? Cualquier comentario es bienvenido.
fuente
Respuestas:
Primero permítanme decir que la prueba sensata de una hipótesis aguda comoa = 0 requiere una distribución previa reflexiva para una , porque el factor Bayes depende críticamente de esto antes. Muchos bayesianos no probarán una hipótesis aguda, pero yo sí.
Antes de continuar, debo decirte que realmente no entiendo lo que dices que estás haciendo, por lo que puedo darte consejos que no estás buscando. Espero que puedas seguir la notación de mayo.
Deja que los datos seannorte observaciones: y=((x1,y1),…,(xn,yn)) , donde (según el modelo más general e incluye la pendiente)
Con estas expresiones, ahora podemos escribir el posterior marginal para : Ahora reorganizaremos esta expresión: Dado que esta expresión es verdadera para cada valor de , es cierto en particular para : Tenga en cuenta que el numerador en la fracción del lado izquierdo es la probabilidad de los datos según el modelo restringido (es decir, restringido aa
La fracción de la derecha nos da una forma de evaluar el factor Bayes: dice dividir la densidad posterior evaluada en por la densidad previa evaluada en . (Por cierto, la "fórmula" se llama relación de densidad Savage-Dickey). Ahora es evidente por qué se requiere un previo reflexivo para . Si dejamos que la densidad previa para sea muy incierta, la densidad previa será muy baja en todas partes, incluso en , pero la densidad posterior en no irá a cero y, en consecuencia, el factor de Bayes irá al infinito. En este caso, "basura" produce "basura".a=0 a=0 a a a=0 a=0
Puede imaginar que si no sigue los pasos que he esbozado, no estará sujeto a este problema, pero estaría equivocado. La lógica que he presentado se aplica independientemente del "algoritmo" que aplique.
Pero los pasos proporcionan un algoritmo que puede ser útil. Supongamos que el previo para los parámetros viene dado por el "Jeffreys prior" Esto equivale a utilizar un previo incorrecto en los "parámetros molestos" . Esto está bien, pero dicho previo no sería apropiado por motivo por el que discutí anteriormente. Con esto antes, --- la probabilidad (marginal) de --- será proporcional a una distribución de Student , cuyos parámetros dependen de los datos . Esta distribución es un resumen completo de los datos, que pueden descartarse. Ahora debe elegir un previo adecuado y bien informado para
Espero que encuentres algo en lo que he dicho útil.
fuente