Dado que la estimación posterior de de una probabilidad normal y una gamma inversa antes de es:
que es equivalente a
dado que un débil en elimina y de la ecuación 1:
Es evidente que la estimación posterior de es una función del tamaño de la muestra y la suma de los cuadrados de la probabilidad. Pero ¿qué significa esto? Hay una derivación en Wikipedia que no sigo del todo.
Tengo las siguientes preguntas
- ¿Puedo llegar a esta segunda ecuación sin invocar la regla de Bayes? Tengo curiosidad por saber si hay algo inherente en los parámetros de un IG que esté relacionado con la media y la varianza independientemente de la probabilidad normal.
- ¿Puedo usar el tamaño de la muestra y la desviación estándar de un estudio anterior para estimar un previo informado en y luego actualizar el anterior con nuevos datos? Esto parece sencillo, pero no puedo encontrar ningún ejemplo de ello, ni la razón por la cual este sería un enfoque legítimo, aparte de lo que se puede ver en la parte posterior.
- ¿Existe un libro de texto de estadística o probabilidad popular que pueda consultar para obtener más explicaciones?
Respuestas:
Creo que es más correcto hablar de la distribución posterior de su parámetro lugar de su estimación posterior. Para mayor claridad de las anotaciones, dejaré el primer en en lo que sigue.σ′2 σ′2
Supongamos que se distribuye como , - dejo caer por ahora para hacer un ejemplo heurístico - y se distribuye como y es independiente de .X N(0,σ2) μ 1/σ2=σ−2 Γ(α,β) X
El pdf de dado es gaussiano, es decirX σ−2
El pdf conjunto de , se obtiene multiplicando por - el pdf de . Esto sale como(X,σ−2) f(x,σ−2) f(x|σ−2) g(σ−2) σ−2
Podemos agrupar términos similares y reescribir esto de la siguiente manera
La distribución posterior de es, por definición, el pdf de dado , que es según la fórmula de Bayes . Para responder a su pregunta 1. No creo que haya una manera de expresar desde sin usar la fórmula de Bayes. Con el cálculo, reconocemos en la fórmula anterior algo que parece una función , por lo que integrar para obtener es bastante fácil.σ−2 σ−2 x f(x,σ−2)/f(x) f(σ−2|x) f(x,σ−2) Γ σ−2 f(x)
entonces al dividir obtenemos
Y aquí, en la última fórmula, reconocemos una distribución con parámetros .Γ (α+1/2,β+x2/2)
Si tiene una muestra IID , integrando todos los , obtendrá y luego como producto de siguientes términos:((x1,σ−21),...,(xn,σ−2n)) σ−2i f(x1,...,xn) f(σ−21,...,σ−2n|x1,...,xn)
Cuál es un producto de Variables . Y estamos atrapados aquí debido a la multiplicidad de . Además, la distribución de la media de esas variables independientes no es fácil de calcular.Γ σ−2i Γ
Sin embargo, si suponemos que todas las observaciones comparten el mismo valor de (que parece ser su caso), es decir, que el valor de se extrajo solo una vez de un y que todas las se dibujaron con ese valor de , obtenemosxi σ−2 σ−2 Γ(α,β) xi σ−2
de donde derivamos la distribución posterior de como su ecuación 1 aplicando la fórmula de Bayes.σ−2
La distribución posterior de es una que depende de y , sus parámetros anteriores, el tamaño de la muestra la suma de cuadrados observada. La media anterior de es y la varianza es , por lo que si y el valor es muy pequeño, el anterior lleva muy poca información sobre porque la varianza se vuelve enorme. Como los valores son pequeños, puede eliminarlos de las ecuaciones anteriores y terminar con su ecuación 3.σ−2 Γ α β n σ−2 α/β α/β2 α=β σ−2
En ese caso, la distribución posterior se vuelve independiente de la anterior. Esta fórmula dice que el inverso de la varianza tiene una distribución que depende solo del tamaño de la muestra y la suma de los cuadrados. Puede mostrar que para las variables gaussianas de media conocida, , el estimador de la varianza, tiene la misma distribución, excepto que es una función del tamaño de la muestra y el valor verdadero del parter . En el caso bayesiano, esta es la distribución del parámetro, en el caso frecuentista, es la distribución del estimador.Γ S2 σ2
Con respecto a su pregunta 2., por supuesto, puede usar los valores obtenidos en un experimento anterior como sus antecedentes. Debido a que establecimos un paralelo entre la interpretación bayesiana y frecuentista en lo anterior, podemos elaborar y decir que es como calcular una variación de un tamaño de muestra pequeño y luego recopilar más puntos de datos: actualizaría su estimación de la variación en lugar de tirarla a la basura Los primeros puntos de datos.
Con respecto a su pregunta 3. Me gusta la Introducción a las estadísticas matemáticas de Hogg, McKean y Craig, que generalmente brinda detalles sobre cómo derivar estas ecuaciones.
fuente
Para la pregunta 1, la segunda ecuación se deriva de la regla de Bayes como usted señala, y no veo cómo evitar eso.
Para la pregunta 2, sí, puedes hacer esto. Simplemente use un previo de la misma forma que su segunda ecuación.
Para la pregunta 3, buscaría algo sobre familias exponenciales. Quizás alguien recomendará un buen recurso.
fuente