¿Cómo puede un previo inadecuado conducir a una distribución posterior adecuada?
22
Sabemos que en el caso de una distribución previa adecuada,
P(θ∣X)=P(X∣θ)P(θ)P(X)
∝P(X∣θ)P(θ) .
La justificación habitual para este paso es que la distribución marginal de , , es constante con respecto a y, por lo tanto, puede ignorarse al derivar la distribución posterior.XP(X)θ
Sin embargo, en el caso de un previo incorrecto, ¿cómo sabe que la distribución posterior realmente existe? Parece que falta algo en este argumento aparentemente circular. En otras palabras, si supongo que existe el posterior, entiendo la mecánica de cómo derivar el posterior, pero parece que me falta la justificación teórica de por qué existe.
PD: También reconozco que hay casos en que un previo incorrecto conduce a un posterior incorrecto.
Por lo general, aceptamos posteriores de anteriores incorrectos if
existe y es una distribución de probabilidad válida (es decir, se integra exactamente a 1 sobre el soporte). Esencialmente, esto se reduce a finito. Si este es el caso, llamamos a esta cantidad y la aceptamos como la distribución posterior que queremos. Sin embargo, es importante tener en cuenta que esto NO es una distribución posterior, ni es una distribución de probabilidad condicional (estos dos términos son sinónimos en el contexto aquí).π(θ) π(X)=∫π(X∣θ)π(θ)
π(X∣θ)π(θ)π(X)
π ( θ ∣ X )π(X)=∫π(X∣θ)π(θ)dθπ(θ∣X)
Ahora, dije que aceptamos distribuciones 'posteriores' de anteriores inadecuados dado lo anterior. La razón por la que son aceptados es porque el todavía nos dará 'puntajes' relativos en el espacio de parámetros; es decir, la relación aporta significado a nuestro análisis. El significado que obtenemos de anteriores inadecuados en algunos casos puede no estar disponible en anteriores apropiados. Esta es una justificación potencial para usarlos. Vea la respuesta de Sergio para un examen más completo de la motivación práctica de los antecedentes impropios.π ( θ 1 )π(θ)π(θ1)π(θ2)
Vale la pena señalar que esta cantidad tiene propiedades teóricas deseables, Degroot & Schervish :π(θ∣X)
Los previos impropios no son distribuciones de probabilidad verdaderas, pero si pretendemos que lo son, calcularemos distribuciones posteriores que se aproximen a los posteriores que hubiéramos obtenido utilizando anteriores conjugados adecuados con valores extremos de los hiperparámetros anteriores.
Estoy confundido por algunas cosas en su respuesta. Usted dice que aceptamos los posteriores si lo anterior es finito. ¿Eso significa que si esa integral no es finita, la posterior no será finita? Además, parece implicar que usamos la parte posterior en este caso, pero no es una distribución real, ¿no es así? ¿No hay casos en que sea una distribución real? Además, ¿qué tiene que ver la relación de antecedentes con esto? No veo la conexión
Ben Elizabeth Ward,
@BenElizabethWard Si existe , entonces la integral debe existir (y, por lo tanto, ser finita). El contrapositivo también es verdadero: si no existe (es infinito), entonces no existe. Cuando existe y es una distribución de probabilidad válida, es una distribución de probabilidad. Sin embargo, no es una distribución posterior para con la probabilidad de datos dada . El posterior para ese anterior no existe. Aceptamos en nuestro análisis porque es una aproximación. π ( X ) π ( X ) π ( θ ∣ X ) π ( θ ∣ Xπ(θ∣X)π(X)π(X)π(θ∣X)π ( θ ) π ( X ∣ θ ) π ( θ ∣ X )π(θ∣X)π(θ)π(X∣θ)π(θ∣X)
1
@BenElizabethWard La proporción se usó para demostrar que el prior todavía contiene información útil que tal vez no podamos cargar en un prior adecuado. Editaré mi respuesta para incluir esto.
2
@jsk no es una distribución de probabilidad, pero la definición de distribución posterior requiere que sea una distribución de probabilidad, por lo que es trampa llamar a una distribución posterior cuando es una distribución de probabilidad. Degroot y Schervish dicen '... calcularemos distribuciones posteriores que ...' mediante las cuales asumen que usted acordó 'pretender que ellos [los anteriores impropios] son [previos apropiados]' como se expresó anteriormente en la cita. π ( θ ) π ( θπ( θ )π( θ )π( θ ∣ X)
1
Para que su respuesta sea completa y autónoma para que los futuros lectores no tengan que leer este intercambio de comentarios, ¿desea actualizar su respuesta?
jsk
9
Hay una respuesta "teórica" y una respuesta "pragmática".
Desde un punto de vista teórico, cuando un prior es incorrecto, el posterior no existe (bueno, mire la respuesta de Matthew para una declaración más sólida), pero puede aproximarse por una forma limitante.
Si los datos comprenden una muestra condicionalmente iid de la distribución de Bernoulli con el parámetro , y tiene la distribución beta con los parámetros y , la distribución posterior de es la distribución beta con los parámetros ( observaciones, éxitos) y su media es . Si usamos la distribución beta inadecuada (e irreal) antes con los hiperamámetros anteriores , y pretendemos queθ α β θ α + s , β + n - s n s ( α +θθαβθα + s , β+ n - snortesα = β = 0 π ( θ ) ∝ θ - 1 ( 1( α + s ) / ( α + β+ n )α = β= 0 θ s - 1 ( 1 - θ ) n - sπ( θ ) ∝ θ- 1( 1 - θ )- 1, Obtenemos una posterior adecuada proporcional a , es decir, el pdf de la distribución beta con parámetros y a excepción de un factor constante. Esta es la forma limitante de la parte posterior para un beta anterior con los parámetros y (Degroot & Schervish, Ejemplo 7.3.13). sn-sα→0β→0θs - 1( 1 - θ )n - s - 1sn - sα → 0β→ 0
En un modelo normal con media , varianza conocida y una distribución para , si la precisión anterior, , es pequeño en relación con la precisión de los datos, , luego la distribución posterior es aproximadamente como si :
es decir, la distribución posterior es aproximadamente la que resultaría de suponer que es proporcional a una constante paraσ 2 N ( μ 0 , τ 2 0 ) θ 1 / τ 2 0 n / σ 2 τ 2 0 = ∞ p ( θ ∣ x ) ≈ N ( θ ∣ ˉ x , σ 2 / n ) p ( θ ) θ ∈ ( - ∞ , ∞ ) τ 2 0θσ2norte( μ0 0, τ20 0)θ1 / τ20 0n / σ2τ20 0= ∞
p ( θ ∣ x ) ≈ N( θ ∣ x¯, σ2/ n)
p ( θ )θ ∈ ( - ∞ , ∞ ), una distribución que no es estrictamente posible, pero la forma limitante de la parte posterior a medida que aproxima a existe ( Gelman et al. , p. 52).τ20 0∞
Desde un punto de vista "pragmático", cuando
sea lo que sea , entonces si en
, luego . Se pueden emplear antecedentes inadecuados para representar el comportamiento local de la distribución previa en la región donde la probabilidad es apreciable, digamos . Suponiendo que, con una aproximación suficiente, un previo sigue formas como o solo sobrep ( x ∣ θ ) p ( θ ) = 0p ( x ∣ θ ) = 0p ( θ )p ( x ∣ θ ) ≠ 0( a , b )∫∞- ∞p ( x ∣ θ ) p ( θ ) dθ = ∫siunap ( x ∣ θ ) p ( θ ) dθ( a , b )F( x ) = k , x ∈ ( - ∞ , ∞ )F( x ) = k x- 1, x ∈ ( 0 , ∞ )( a , b ), que se reduce adecuadamente a cero fuera de ese rango, nos aseguramos de que los anteriores realmente utilizados sean correctos ( Box y Tiao , p. 21). Entonces, si la distribución previa de es pero
está limitada, es como si , es decir, . Para un ejemplo concreto, esto es lo que sucede en Stan : si no se especifica ningún previo para un parámetro, se le da implícitamente un previo uniforme en su soporte y esto se maneja como una multiplicación de la probabilidad por una constante.θU( - ∞ , ∞ )( a , b )θ ∼ U( a , b )p ( x ∣ θ ) p ( θ ) = p ( x ∣ θ ) k ∝ p ( x ∣ θ )
¿Puedes decir más sobre por qué no existe desde un punto de vista teórico?
jsk
No podría exponer mejor que Matthew en su respuesta y en sus comentarios.
Sergio
En la sección pragmática, ¿qué es y? También en esa sección, ¿deberían algunos de los términos ser la probabilidad ? p ( θ ∣ x )p ( x ∣ θ )
jsk
Gracias. Creo que podría haber un error más ... Escribes , pero el anterior no puede depender de . ¿Te refieres a ? PAGS( θ ) = k x- 1XPAGS( θ ) = k θ- 1
jsk
¡Correcto! He reescrito esas fórmulas tal como están en Box & Tiao. Estaba tratando de elegir una notación homogénea (por ejemplo, Gelman usa lugar de , DeGroot usa Para anteriores y posteriores, etc.) pero terminé en un desastre ... ¡Gracias! yXξ( . )
Sergio
2
Sin embargo, en el caso de un previo incorrecto, ¿cómo sabe que la distribución posterior realmente existe?
La parte posterior podría no ser adecuada tampoco. Si lo anterior es incorrecto y la probabilidad es plana (porque no hay observaciones significativas), entonces el posterior es igual al anterior y también es incorrecto.
Por lo general, tiene algunas observaciones y, por lo general, la probabilidad no es plana, por lo que la posterior es adecuada.
Hay una respuesta "teórica" y una respuesta "pragmática".
Desde un punto de vista teórico, cuando un prior es incorrecto, el posterior no existe (bueno, mire la respuesta de Matthew para una declaración más sólida), pero puede aproximarse por una forma limitante.
Si los datos comprenden una muestra condicionalmente iid de la distribución de Bernoulli con el parámetro , y tiene la distribución beta con los parámetros y , la distribución posterior de es la distribución beta con los parámetros ( observaciones, éxitos) y su media es . Si usamos la distribución beta inadecuada (e irreal) antes con los hiperamámetros anteriores , y pretendemos queθ α β θ α + s , β + n - s n s ( α +θ θ α β θ α + s , β+ n - s norte s α = β = 0 π ( θ ) ∝ θ - 1 ( 1( α + s ) / ( α + β+ n ) α = β= 0 θ s - 1 ( 1 - θ ) n - sπ( θ ) ∝ θ- 1( 1 - θ )- 1 , Obtenemos una posterior adecuada proporcional a , es decir, el pdf de la distribución beta con parámetros y a excepción de un factor constante. Esta es la forma limitante de la parte posterior para un beta anterior con los parámetros y (Degroot & Schervish, Ejemplo 7.3.13). sn-sα→0β→0θs - 1( 1 - θ )n - s - 1 s n - s α → 0 β→ 0
En un modelo normal con media , varianza conocida y una distribución para , si la precisión anterior, , es pequeño en relación con la precisión de los datos, , luego la distribución posterior es aproximadamente como si : es decir, la distribución posterior es aproximadamente la que resultaría de suponer que es proporcional a una constante paraσ 2 N ( μ 0 , τ 2 0 ) θ 1 / τ 2 0 n / σ 2 τ 2 0 = ∞ p ( θ ∣ x ) ≈ N ( θ ∣ ˉ x , σ 2 / n ) p ( θ ) θ ∈ ( - ∞ , ∞ ) τ 2 0θ σ2 norte( μ0 0, τ20 0) θ 1 / τ20 0 n / σ2 τ20 0= ∞
Desde un punto de vista "pragmático", cuando sea lo que sea , entonces si en , luego . Se pueden emplear antecedentes inadecuados para representar el comportamiento local de la distribución previa en la región donde la probabilidad es apreciable, digamos . Suponiendo que, con una aproximación suficiente, un previo sigue formas como o solo sobrep ( x ∣ θ ) p ( θ ) = 0 p ( x ∣ θ ) = 0 p ( θ ) p ( x ∣ θ ) ≠ 0 ( a , b ) ∫∞- ∞p ( x ∣ θ ) p ( θ ) dθ = ∫siunap ( x ∣ θ ) p ( θ ) dθ ( a , b ) F( x ) = k , x ∈ ( - ∞ , ∞ ) F( x ) = k x- 1, x ∈ ( 0 , ∞ ) ( a , b ) , que se reduce adecuadamente a cero fuera de ese rango, nos aseguramos de que los anteriores realmente utilizados sean correctos ( Box y Tiao , p. 21). Entonces, si la distribución previa de es pero
está limitada, es como si , es decir, . Para un ejemplo concreto, esto es lo que sucede en Stan : si no se especifica ningún previo para un parámetro, se le da implícitamente un previo uniforme en su soporte y esto se maneja como una multiplicación de la probabilidad por una constante.θ U( - ∞ , ∞ ) ( a , b ) θ ∼ U( a , b ) p ( x ∣ θ ) p ( θ ) = p ( x ∣ θ ) k ∝ p ( x ∣ θ )
fuente
La parte posterior podría no ser adecuada tampoco. Si lo anterior es incorrecto y la probabilidad es plana (porque no hay observaciones significativas), entonces el posterior es igual al anterior y también es incorrecto.
Por lo general, tiene algunas observaciones y, por lo general, la probabilidad no es plana, por lo que la posterior es adecuada.
fuente