¿Por qué no utilizar el teorema de Bayes en el formulario?

10

Hay muchas preguntas (como esta ) sobre cierta ambigüedad con la fórmula bayesiana en caso continuo.

p(θ|x)=p(x|θ)p(θ)p(x)

A menudo, la confusión surge del hecho de que la definición de distribución condicional se explica como siendo función de la dada un fijo .f(variable|parameter)fvariableparameter

Junto con eso, hay un principio de equivalencia que establece que la probabilidad se puede escribir como:

L(θ|x)=p(x|θ)

Entonces, ¿por qué no utilizar la regla de Bayes para distribuciones en la siguiente forma:

p(θ|x)=L(θ|x)p(θ)p(x)

para enfatizar que estamos tratando con funciones de dados los datos observados , y que el término respectivo es verosimilitud (al menos, comenzando con )?θxL

¿Es una cuestión de tradición o hay algo más fundamental en esta práctica?

iot
fuente
¿Cuál es el significado de ? Sé esto como una probabilidad. Pero en el caso continuo, no veo de qué probabilidad estás hablando. p()
Sextus Empiricus
@MartijnWeterings, las funciones deben ser distribuciones de probabilidad válidas en todos los casos, excepto cuando es "probabilidad" de la forma . ¿Me estoy perdiendo de algo? p()p(x|θ)
iot
¿Qué quieres decir con distribución de probabilidad? ¿Acumulativo, densidad, etc.?
Sextus Empiricus
1
Puede ser útil dar un paso atrás y darse cuenta de que no hay "variables" en el teorema de Bayes, al menos mientras usa el término. Hay puntos de datos y hay parámetros del modelo. En este sentido, . Invocas una criatura de aspecto posterior que luego llamas probabilidad. Pero no lo es. Así que no estoy seguro de a dónde vas con esto. Y en general que no tiene sentido en el caso en que e e ni siquiera tienen el mismo soporte. P(model|data)P(data)=P(data,model)=P(data|model)P(model)P(model|data)p(x|y)=p(y|x)p(x)=p(y)x=datay=model. xy
Peter Leopold

Respuestas:

7

Hay dos resultados básicos de probabilidad que funcionan en el teorema de Bayes. Una es una forma de reescribir una función de densidad de probabilidad conjunta :

p(x,y)=p(x|y)p(y).

La otra es una fórmula para calcular una función de densidad de probabilidad condicional :

p(y|x)=p(x,y)p(x).

El teorema de Bayes solo une estas dos cosas:

p(θ|x)=p(x,θ)p(x)=p(x|θ)p(θ)p(x)

Entonces, tanto los datos como los parámetros son variables aleatorias con pdf conjuntoxθ

p(x,θ)=p(x|θ)p(θ),
y eso es lo que aparece en el numerador en el teorema de Bayes. Entonces, escribir la probabilidad como una densidad de probabilidad condicional en lugar de como una función de los parámetros deja en claro la probabilidad básica en juego.L

Dicho todo esto, verás que la gente usa, como aquí o aquí .

jcz
fuente
@iot En las estadísticas clásicas, puede estimar los parámetros al encontrar elθ que maximiza p(x|θ) como una función de θ. Entonces la gente escribiráL(θ)=p(x|θ) e intenta calcular θ^MLE=argmaxL(θ). En este caso, no le importa el "estado" de como un pdf condicional sobre . Te importa su estado como una función real de que deseas maximizar con respecto a . Entonces, la notación de estilo es un remanente de esa configuración. p(x|θ)xθθL()
jcz
10

La función de probabilidad es meramente proporcional a la densidad de muestreo, en el sentido de que tiene para alguna constante (aunque debe tener en cuenta que la probabilidad es una función del parámetro, no de los datos). Si desea utilizar esto en su expresión para el teorema de Bayes, debe incluir la misma constante de escala en el denominador:Lx(θ)=k(x)p(x|θ)k(x)>0

p(θ|x)=Lx(θ)p(θ)k(x)p(x)=Lx(θ)p(θ)Lx(θ)p(θ) dθLx(θ)p(θ).

Si en cambio usa la fórmula que ha propuesto, terminará con un núcleo de la densidad posterior, pero puede no integrarse en uno (y, por lo tanto, generalmente no es una densidad).

Ben - Restablece a Monica
fuente
2
Me gusta su respuesta, pero en la fórmula original con fijo (contexto bayesiano) tampoco tiene una distribución de probabilidad válida , y también es un factor de escala no igual a 1. Entonces, ¿por qué? ¿Crees que no es la unidad en tu explicación? p(x|θ)xp(x)k
garej
1
Muy a menudo formulamos la función de probabilidad eliminando partes multiplicativas que no dependen del parámetro de interés. Hacemos esto para simplificar el análisis, evitando la necesidad de realizar un seguimiento de una constante de integración. Por ejemplo, si entonces , eliminando el coeficiente binomial en la distribución binomial. En este caso tenemos , que generalmente no es igual a uno. p(x|θ)=Bin(x|n,θ)Lx(θ)=θx(1θ)nxk=(nx)
Ben - Restablece a Monica el
1
¿Entonces su punto es que existe una convención de que la probabilidad generalmente está libre de constantes innecesarias y que la versión de iot podría ser algo engañosa para los estadísticos?
garej
Si bien esa es una forma convencional de establecer la probabilidad, el punto aquí es que la función de probabilidad generalmente se define solo hasta la proporcionalidad, por lo que no hay garantía de que en el funcionamiento anterior. k=1
Ben - Restablece a Monica el
Es la primera vez que leo que la probabilidad es proporcional a una densidad. Para mí, esto es solo un tramo y posiblemente sea incorrecto. El problema radica en la terminología superpuesta. No deberíamos llamar a una densidad una probabilidad, en la regla de Bayes, pero seguimos haciéndolo.
nbro