Posterior muy diferente al anterior y la probabilidad

21

Si lo anterior y la probabilidad son muy diferentes entre sí, entonces a veces ocurre una situación en la que el posterior no es similar a ninguno de ellos. Vea, por ejemplo, esta imagen, que usa distribuciones normales.

Comportamiento posterior

Aunque esto es matemáticamente correcto, no parece estar de acuerdo con mi intuición: si los datos no coinciden con mis creencias o los datos firmemente arraigados, esperaría que ninguno de los rangos funcione bien y esperaría un plano posterior sobre todo el rango o tal vez una distribución bimodal alrededor del previo y la probabilidad (no estoy seguro de cuál tiene más sentido lógico). Ciertamente no esperaría un posterior ajustado alrededor de un rango que no coincida ni con mis creencias anteriores ni con los datos. Entiendo que a medida que se recopilen más datos, la parte posterior se moverá hacia la probabilidad, pero en esta situación parece contra-intuitiva.

Mi pregunta es: ¿cómo es que mi comprensión de esta situación es defectuosa (o es defectuosa)? ¿Es la función posterior 'correcta' para esta situación? Y si no, ¿de qué otra manera podría ser modelado?

En aras de la integridad, la prioridad se da como y la probabilidad como .N(μ=1.5,σ=0.4)N(μ=6.1,σ=0.4)

EDITAR: Al mirar algunas de las respuestas dadas, siento que no he explicado muy bien la situación. Mi punto era que el análisis bayesiano parece producir un resultado no intuitivo dados los supuestos del modelo. Mi esperanza era que el posterior de alguna manera `` explicara '' quizás las malas decisiones de modelado, lo que, cuando se piensa, definitivamente no es el caso. Ampliaré esto en mi respuesta.

Rónán Daly
fuente
2
Eso significa simplemente que no puede asumir la normalidad de la parte posterior. Si supone que la parte posterior es normal, esto sería correcto.
PascalVKooten
No hice ninguna suposición en la parte posterior, solo la anterior y la probabilidad. Y en cualquier caso, la forma de la distribución parece irrelevante aquí: podría haberlos dibujado manualmente y seguiría el mismo posterior.
Rónán Daly
Solo digo que tirarías tu creencia en este posterior si no asumes que el posterior puede ser normal. Teniendo en cuenta los datos normales anteriores y normales, un posterior normal sería realmente así. Quizás imagine datos pequeños, algo así podría ocurrir en realidad.
PascalVKooten
1
¿Es correcta esta cifra? Parece que la probabilidad anterior debería estar muy cerca de 0 ya que nunca se superponen. Tengo problemas para ver cómo su posterior puede asomarse allí ya que el peso del anterior está muy cerca de 0 allí. ¿Me estoy perdiendo de algo? ×
Luca
1
@Luca Te estás olvidando de la re-normalización. El producto de lo anterior y la probabilidad es cercano a cero, sí, pero cuando lo normalizas de nuevo para que se integre nuevamente en 1, esto se vuelve irrelevante.
Pat

Respuestas:

5

Sí, esta situación puede surgir y es una característica de sus supuestos de modelado específicamente la normalidad en el modelo anterior y de muestreo (probabilidad). Si, en cambio, hubiera elegido una distribución de Cauchy para su anterior, el posterior se vería muy diferente.

prior = function(x) dcauchy(x, 1.5, 0.4)
like = function(x) dnorm(x,6.1,.4)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, 0, 8, col="red", axes=F, frame=T)
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

Cauchy previo, modelo de muestreo normal

jaradniemi
fuente
Gracias por tu respuesta @jaradniemi, ¿crees que un Cauchy anterior siempre evitaría la situación particular dada en la pregunta?
Rónán Daly
1
Sí. Generalmente, los anteriores de cola pesada permiten que los datos superen más fácilmente al anterior.
jaradniemi
2
Jaradniemi, puede ser así, pero si dices que no quieres que tu anterior influya en el posterior, ¿por qué eliges un prior informativo en primer lugar? Parece que estás sugiriendo elegir un cauchy porque parece informativo, pero en realidad no lo es.
Florian Hartig
1
Si lo anterior y la probabilidad están de acuerdo, entonces obtiene el aumento deseado de precisión de lo anterior a lo posterior y, por lo tanto, lo anterior es informativo. Pero elegir un prior de cola pesada permite la posibilidad de abrumar fácilmente al prior cuando los dos no están de acuerdo.
jaradniemi
2

Estoy un poco en desacuerdo con las respuestas dadas hasta ahora: no hay nada extraño en esta situación. La probabilidad es asintóticamente normal de todos modos, y un previo normal no es raro en absoluto. Si combina ambos, con el hecho de que antes y la probabilidad no dan la misma respuesta, tenemos la situación de la que estamos hablando aquí. Lo describí a continuación con el código de jaradniemi.

Mencionamos en 1 que la conclusión normal de tal observación sería que a) el modelo es estructuralmente incorrecto b) los datos son incorrectos c) el anterior es incorrecto. Pero algo está mal con seguridad, y también vería esto si hiciera algunas verificaciones predictivas posteriores, lo que debería hacer de todos modos.

1 Hartig, F .; Dyke, J .; Hickler, T .; Higgins, SI; O'Hara, RB; Scheiter, S. y Huth, A. (2012) Conexión de modelos dinámicos de vegetación a datos: una perspectiva inversa. J. Biogeogr., 39, 2240-2252. http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2699.2012.02745.x/abstract

prior = function(x) dnorm(x,1,.3)
like = function(x) dnorm(x,-1,.3)

# Posterior
propto = function(x) prior(x)*like(x)
d = integrate(propto, -Inf, Inf)
post = function(x) propto(x)/d$value

# Plot
par(mar=c(0,0,0,0)+.1, lwd=2)
curve(like, -2, 2, col="red", axes=F, frame=T, ylim = c(0,2))
curve(prior, add=TRUE, col="blue")
curve(post, add=TRUE, col="seagreen")
legend("bottomleft", c("Prior","Likelihood","Posterior"), col=c("blue","red","seagreen"), lty=1, bg="white")

ingrese la descripción de la imagen aquí

Florian Hartig
fuente
2

Siento que la respuesta que estaba buscando cuando se trataba de esta pregunta se resume mejor por Lesaffre y Lawson en Bioestadística Bayesiana

La precisión posterior es la suma de la precisión anterior y la muestra, es decir: Esto muestra que la posterior es más alta que la anterior y la función de probabilidad, lo que significa que el posterior contiene más información sobre que el anterior y la función de probabilidad. Esta propiedad se mantiene incluso cuando la probabilidad y la anterior están en conflicto (en contraste con el caso binomial-beta). Esto puede parecer contradictorio ya que, en presencia de información contradictoria, hay más incertidumbre a posteriori en lugar de menos incertidumbre. Tenga en cuenta que este resultado solo es válido para el caso especial y poco realista de un conocido .

1σ2=w0 0+w1
μσ

Lo que esto resume para mí, y se describe más o menos en las otras respuestas, es que el caso de modelar previos normales con una probabilidad normal puede dar como resultado una situación en la que el posterior sea más preciso que cualquiera. Esto es contraintuitivo, pero es una consecuencia especial de modelar estos elementos de esta manera.

AWP
fuente
Esto se generaliza en una dimensión superior con la matriz de Fisher. El hessiano de la probabilidad logarítmica de la distribución posterior cerca de su pico es la suma de las covarianzas inversas anteriores y de probabilidad. La inversa de esta suma es la covarianza de la posterior. Debido a que se agregan dos matrices positivas (semi) definidas (covarianzas inversas), se garantiza matemáticamente que la precisión de la posterior superará la de las distribuciones de probabilidad anteriores o de probabilidad. Este es un resultado universal en el marco bayesiano.
T3am5hark
2

X1X0 0μnorte(1.6,0.4 0.42)X1norte(μ,0.4 0.42)X1X10.4 0.42+0.4 0.42=0,562ϕ(-(6.1-1.6)/ /0,56)=9.310-dieciséisμ

X0 0norte(μ,0.4 0.42)X0 0X0 0X1El |X1-X0 0El |>6.1-1.6

X0 0X1

Jarle Tufto
fuente
1

Después de pensar en esto por un tiempo, mi conclusión es que con supuestos de modelado incorrectos, el posterior puede ser un resultado que no concuerda ni con creencias previas ni con la probabilidad. De esto, el resultado natural es que el posterior no es , en general, el final del análisis. Si es el caso de que el posterior debe ajustarse aproximadamente a los datos o que debe ser difuso entre el anterior y la probabilidad (en este caso), entonces esto debería verificarse después del hecho, probablemente con un control predictivo posterior o algo así similar. Incorporar esto al modelo parecería requerir la capacidad de poner probabilidades en declaraciones probabilísticas, lo cual no creo que sea posible.

Rónán Daly
fuente
sí, estoy de acuerdo, vea mi respuesta más detallada
Florian Hartig
0

Creo que esta es una pregunta realmente interesante. Habiendo dormido sobre eso, creo que tengo una puñalada por una respuesta. La cuestión clave es la siguiente:

  • Has tratado la probabilidad como un pdf gaussiano. Pero no es una distribución de probabilidad, ¡es una probabilidad! Además, no ha etiquetado su eje claramente. Estas cosas combinadas han confundido todo lo que sigue.

μσPAGS(μEl |μ,σ)μσPAGS(XEl |μ,σ)XPAGS(μEl |X,σ,μ,σ)μ

μPAGS(XEl |μ)

PAGS(μEl |μ,σ)=miXpags(-(μ-μ)22σ2)12πσ2

PAGS(XEl |μ,σ)=yo=1nortemiXpags(-(Xyo-μ)22σ2)12πσ2

σ2=σ2/ /norteσ2norteX

Entonces, lo anterior y la probabilidad son igualmente informativos. ¿Por qué no es el bimodal posterior? Esto se debe a sus supuestos de modelado. Asumiste implícitamente una distribución normal en la forma en que se configura (normal anterior, probabilidad normal), y eso obliga a la parte posterior a dar una respuesta unimodal. Esa es solo una propiedad de las distribuciones normales, que usted ha abordado el problema al usarlas. Un modelo diferente no necesariamente habría hecho esto. Tengo la sensación (aunque carece de pruebas en este momento) de que una distribución cauchy puede tener una probabilidad multimodal y, por lo tanto, una posterior multimodal.

Entonces, tenemos que ser unimodales, y lo anterior es tan informativo como la probabilidad. Bajo estas restricciones, la estimación más sensata está comenzando a sonar como un punto directamente entre la probabilidad y la anterior, ya que no tenemos una forma razonable de saber en qué creer. Pero, ¿por qué la parte posterior se tensa?

σμσσσμ

(Una forma de visualizarlo podría ser imaginar estimar la media de un gaussiano, con una varianza conocida, usando solo dos puntos de muestra. Si los dos puntos de muestra están separados por mucho más que el ancho del gaussiano (es decir, están fuera) en las colas), entonces esa es una fuerte evidencia de que la media realmente se encuentra entre ellos. Cambiar la media solo ligeramente desde esta posición causará una caída exponencial en la probabilidad de una muestra u otra).

En resumen, la situación que ha descrito es un poco extraña, y al usar el modelo que tiene, ha incluido algunas suposiciones (por ejemplo, unimodalidad) en el problema que no se dio cuenta de que tenía. Pero por lo demás, la conclusión es correcta.

Palmadita
fuente
μσσμ