Ayúdame a comprender las distribuciones bayesianas anteriores y posteriores

125

En un grupo de estudiantes, hay 2 de 18 que son zurdos. Encuentre la distribución posterior de los estudiantes zurdos en la población suponiendo que no haya información previa. Resume los resultados. Según la literatura, 5-20% de las personas son zurdas. Tenga en cuenta esta información en su anterior y calcule el nuevo posterior.

Sé que la distribución beta debería usarse aquí. Primero, ¿con los valores y como 1? La ecuación que encontré en el material para posterior esαβ

π(r|Y)r(Y+1)×(1r)(NY+1)

Y=2N = 18 ,N=18

¿Por qué está en la ecuación? ( denota la proporción de personas zurdas). Es desconocido, entonces, ¿cómo puede ser en esta ecuación? A mí me parece ridículo calcular dado y usar ese en la ecuación que da . Bueno, con la muestra el resultado fue . ¿La debería deducir de eso?rrrYrrr=2/180,0019f

La ecuación que da un valor esperado de dado que y conocidos funcionó mejor y me dio que parece correcto. La ecuación es con el valor asignado a y . ¿Qué valores debo dar y para tener en cuenta la información previa?RYN0,15E(r|X,N,α,β)=(α+X)/(α+β+N)1αβαβ

Algunos consejos serían muy apreciados. Una conferencia general sobre distribuciones anteriores y posteriores tampoco estaría de más (tengo una vaga comprensión de lo que son, pero solo es vaga) También tenga en cuenta que no soy un estadístico muy avanzado (de hecho, soy un politólogo por mi oficio principal) Las matemáticas avanzadas probablemente sobrevolarán mi cabeza.

Mover
fuente
44
¿Le echó un vistazo a esta pregunta y respuesta ?
David Robinson
77
La frase " Encontrar la distribución posterior de los estudiantes zurdos " no tiene sentido. Las variables aleatorias tienen distribuciones, y "estudiantes zurdos" no es un rv. Supongo que tiene la intención de " Encontrar la distribución posterior de la proporción de estudiantes zurdos ". Es importante no pasar por alto tales detalles, sino ser claro sobre lo que realmente está hablando.
Glen_b
2
En realidad, al leer su pregunta, me parece que su problema no es tanto las estadísticas bayesianas como simplemente comprender las distribuciones de probabilidad; que es siempre el caso de que el argumento de una función de distribución (o una función de probabilidad que usted tiene allí) es una función de un desconocido (la variable aleatoria). Ese es el punto de ellos.
Glen_b
Los comentarios no son para discusión extendida; Esta conversación se ha movido al chat .
Gung

Respuestas:

234

Permítanme explicar primero qué es un conjugado anterior . Luego explicaré los análisis bayesianos utilizando su ejemplo específico. Las estadísticas bayesianas incluyen los siguientes pasos:

  1. Defina la distribución previa que incorpora sus creencias subjetivas sobre un parámetro (en su ejemplo, el parámetro de interés es la proporción de zurdos). El prior puede ser "no informativo" o "informativo" (pero no existe un prior que no tenga información, vea la discusión aquí ).
  2. Reunir datos.
  3. Actualice su distribución anterior con los datos utilizando el teorema de Bayes para obtener una distribución posterior. La distribución posterior es una distribución de probabilidad que representa sus creencias actualizadas sobre el parámetro después de haber visto los datos.
  4. Analizar la distribución posterior y resumirla (media, mediana, sd, cuantiles, ...).

La base de todas las estadísticas bayesianas es el teorema de Bayes, que es

posteriorprior×likelihood

En su caso, la probabilidad es binomial. Si la distribución anterior y la posterior están en la misma familia, las anteriores y posteriores se denominan distribuciones conjugadas . La distribución beta es un conjugado anterior porque el posterior también es una distribución beta. Decimos que la distribución beta es la familia conjugada para la probabilidad binomial. Los análisis conjugados son convenientes pero rara vez ocurren en problemas del mundo real. En la mayoría de los casos, la distribución posterior debe encontrarse numéricamente a través de MCMC (utilizando Stan, WinBUGS, OpenBUGS, JAGS, PyMC o algún otro programa).

Si la distribución de probabilidad previa no se integra a 1, se llama un prior impropio , si se integra a 1 se llama un prior apropiado . En la mayoría de los casos, un previo incorrecto no representa un problema importante para los análisis bayesianos. Sin embargo, la distribución posterior debe ser adecuada, es decir, la posterior debe integrarse a 1.

Estas reglas generales se derivan directamente de la naturaleza del procedimiento de análisis bayesiano:

  • Si el anterior no es informativo, el posterior está muy determinado por los datos (el posterior está basado en datos)
  • Si lo anterior es informativo, lo posterior es una mezcla de lo anterior y los datos.
  • Cuanto más informativo sea el anterior, más datos necesitará para "cambiar" sus creencias, por así decirlo, porque el posterior está muy impulsado por la información previa.
  • Si tiene muchos datos, los datos dominarán la distribución posterior (abrumarán a los anteriores)

En esta publicación se puede encontrar una excelente descripción de algunos posibles antecedentes "informativos" y "no informativos" para la distribución beta .

Digamos que su versión beta anterior es donde es la proporción de zurdos. Para especificar los parámetros anteriores y , es útil conocer la media y la varianza de la distribución beta (por ejemplo, si desea que su anterior tenga una cierta media y varianza). La media es . Por lo tanto, cada vez que , la media es . La variación de la distribución beta es . Ahora, lo conveniente es que puedes pensar en yBeta(πLH|α,β)πLHαβπ¯LH=α/(α+β)α=β0.5αβ(α+β)2(α+β+1)αβcomo se observó anteriormente (pseudo-) datos, a saber, zurdos y derechos de una muestra (pseudo-) de tamaño . La distribución es uniforme (todos los valores de son igualmente probables) y es el equivalente a haber observado a dos personas de los cuales uno es zurdo y el otro es diestro.αβneq=α+βBeta(πLH|α=1,β=1)πLH

La distribución beta posterior es simplemente donde es el tamaño de la muestra y es el número de zurdos en la muestra. La media posterior de es por lo tanto . Entonces, para encontrar los parámetros de la distribución beta posterior, simplemente agregamos zurdos a y derechos a . La varianza posterior esBeta(z+α,Nz+β)NzπLH(z+α)/(N+α+β)zαNzβ(z+α)(Nz+β)(N+α+β)2(N+α+β+1). Tenga en cuenta que un previo altamente informativo también conduce a una variación menor de la distribución posterior (los gráficos a continuación ilustran muy bien el punto).

En su caso, y y su prior es el uniforme que no es informativo, entonces . Su distribución posterior es, por lo tanto, . La media posterior es . Aquí hay un gráfico que muestra lo anterior, la probabilidad de los datos y lo posteriorz=2N=18α=β=1Beta(3,17)π¯LH=3/(3+17)=0.15

El previo, la probabilidad de los datos y la distribución posterior con un previo uniforme

Usted ve que debido a que su distribución anterior no es informativa, su distribución posterior está completamente impulsada por los datos. También se representa el intervalo de densidad más alto (IDH) para la distribución posterior. Imagine que coloca su distribución posterior en una cuenca 2D y comienza a llenar el agua hasta que el 95% de la distribución esté por encima de la línea de flotación. Los puntos donde la línea de flotación se cruza con la distribución posterior constituyen el 95% de IDH. Cada punto dentro del IDH tiene una probabilidad más alta que cualquier punto fuera de él. Además, el IDH siempre incluye el pico de la distribución posterior (es decir, el modo). El IDH es diferente de un intervalo creíble igual al 95% de cola donde se excluye el 2.5% de cada cola de la parte posterior (ver aquí ).

Para su segunda tarea, se le pide que incorpore la información de que 5-20% de la población son zurdos en cuenta. Hay varias formas de hacerlo. La forma más fácil es decir que la distribución beta anterior debe tener una media de que es la media de y . Pero, ¿cómo elegir y de la distribución beta anterior? Primero, desea que su media de la distribución anterior sea de una pseudo-muestra de tamaño de muestra equivalente . En términos más generales, si desea que su anterior tenga una media con un tamaño de pseudo-muestra , el correspondiente0.1250.050.2αβ0.125neqmneqαy los valores son: y . Todo lo que tiene que hacer ahora es elegir el tamaño de pseudo-muestra que determina qué tan seguro está de su información anterior. Digamos que está muy seguro de su información previa y establezca . Los parámetros de su distribución anterior son por lo tanto y . La distribución posterior es con una media de aproximadamente que es prácticamente la misma que la media anterior deβα=mneqβ=(1m)neqneqneq=1000α=0.1251000=125β=(10.125)1000=875Beta(127,891)0.1250.125. La información previa está dominando la posterior (ver el siguiente gráfico):

Lo anterior, la probabilidad de los datos y la distribución posterior con fuerte información previa

Si no está tan seguro acerca de la información previa, puede establecer el de su pseudo-muestra en, por ejemplo, , que produce y para su distribución beta anterior. La distribución posterior es con una media de aproximadamente . La media posterior ahora está cerca de la media de sus datos ( ) porque los datos superan a los anteriores. Aquí está el gráfico que muestra la situación:neq10α=1.25β=8.75Beta(3.25,24.75)0.1160.111

Lo anterior, la probabilidad de los datos y la distribución posterior con beta previo correspondiente a un tamaño de pseudo-muestra de 3

Un método más avanzado para incorporar la información previa sería decir que el cuantil de de su distribución beta anterior debería ser de aproximadamente y el cuantil de debería ser de aproximadamente . Esto equivale a decir que está 95% seguro de que la proporción de zurdos en la población se encuentra entre 5% y 20%. La función en el paquete R calcula los valores y de una distribución beta correspondiente a tales cuantiles. El código es0.0250.050.9750.2beta.selectLearnBayesαβ

library(LearnBayes)

quantile1=list(p=.025, x=0.05)     # the 2.5% quantile should be 0.05
quantile2=list(p=.975, x=0.2)      # the 97.5% quantile should be 0.2
beta.select(quantile1, quantile2)

[1]  7.61 59.13

Parece que una distribución beta con los parámetros y tiene las propiedades deseadas. La media anterior es que está cerca de la media de sus datos ( ). Nuevamente, esta distribución previa incorpora la información de una pseudomuestra de un tamaño de muestra equivalente de aproximadamente . . La distribución posterior es con una media de que es comparable con la media del análisis anterior utilizando un previo altamente informativo . Aquí está el gráfico correspondiente:α=7.61β=59.137.61/(7.61+59.13)0.1140.111neq7.61+59.1366.74Beta(9.61,75.13)0.113Beta(125,875)

El anterior, la probabilidad de los datos y la distribución posterior con previo que tiene cuantiles de 0.05 y 0.975 de 0.05 y 0.2

Vea también esta referencia para una breve pero buena descripción general del razonamiento bayesiano y el análisis simple. Aquí se puede encontrar una introducción más larga para los análisis conjugados, especialmente para los datos binomiales . Aquí se puede encontrar una introducción general al pensamiento bayesiano . Más diapositivas sobre aspectos de las estadísticas baysianas están aquí .

COOLSerdash
fuente
1
¿Por qué elegimos la distribución Beta aquí?
Metariat
1
@Metallica La razón principal es que la Beta es el conjugado anterior a la distribución binomial. Esto significa que si elegimos una Beta como anterior, la posterior también será Beta. Otras razones son que la Beta está entre 0 y 1 y es muy flexible. Incluye el uniforme, por ejemplo. Pero cualquier distribución adecuada con soporte en puede usarse como antes. Es solo que el posterior es más difícil de calcular. (0,1)
COOLSerdash
¿Todavía tiene el documento para "Introducción al pensamiento bayesiano"? El enlace de Dropbox está muerto.
bs7280
@ bs7280 He actualizado los enlaces. Deberían trabajar de nuevo ahora.
COOLSerdash
1
@meduz Estrictamente hablando, no existe un verdadero "desinformativo" previo. Me gustaría referirlo a la excelente respuesta de Tim en esta discusión.
COOLSerdash
8

Una distribución beta con = 1 y = 1 es lo mismo que una distribución uniforme. Entonces, de hecho, es uniforme. Está tratando de encontrar información sobre un parámetro de una distribución (en este caso, porcentaje de personas zurdas en un grupo de personas). La fórmula de Bayes dice:αβ

P(r|Y1,...,n) =P(Y1,...,n|r)P(r)P(Y1,...,n|θ)P(r)

que usted señaló es proporcional a:

P(r|Y1,...,n) (Y1,...,n|r)P(r)

Entonces, básicamente, comienza con su creencia previa de la proporción de zurdos en el grupo (P (r), para la que está usando un dist uniforme), luego considera los datos que recopila para informar a su anterior (un binomio en este caso, usted es diestro o zurdo, entonces ). Una distribución binomial tiene un beta conjugado anterior, lo que significa que la distribución posteriorP(Y1,...,n|r)P(r|Y1,...n), la distribución del parámetro después de considerar los datos pertenece a la misma familia que la anterior. Aquí no se desconoce al final. (y, francamente, no fue antes de recopilar los datos. Tenemos una idea bastante buena de la proporción de zurdos en la sociedad). Usted tiene tanto la distribución previa (su suposición de r) como la recopilación de datos y poner los dos juntos. La parte posterior es su nuevo supuesto de la distribución de los zurdos después de considerar los datos. Entonces, tomas la probabilidad de los datos y los multiplicas por un uniforme. El valor esperado de una distribución beta (que es el póster) es . Entonces, cuando comenzó, su suposición con = 1 yαα+βαβ= 1 fue que la proporción de zurdos en el mundo era . Ahora ha recopilado datos que tienen 2 zurdos de 18. Ha calculado un posterior. (sigue siendo beta) Sus valores y ahora son diferentes, lo que cambia su idea de la proporción de zurdos frente a diestros. como ha cambiado12αβ

Eric Peterson
fuente
1

En la primera parte de su pregunta, le pide que defina un previo adecuado para "r". Con los datos binomiales en la mano, sería aconsejable elegir una distribución beta. Porque entonces la posterior será una beta. Dado que la distribución uniforme es un caso especial de beta, puede elegir antes para "r" la distribución uniforme permitiendo que todos los valores posibles de "r" sean igualmente probables.

En la segunda parte, ha proporcionado la información sobre la distribución anterior "r".

Con esto en mano, la respuesta de @ COOLSerdash le dará las instrucciones adecuadas.

Gracias por publicar esta pregunta y COOLSerdash por proporcionar una respuesta adecuada.

Nilupa Rupasinghe
fuente