Comparación de la estimación de máxima verosimilitud (MLE) y el teorema de Bayes

12

En el teorema bayesiano, , y del libro que estoy leyendo,p(x|y)se llamaprobabilidad, pero supongo que es solo laprobabilidad condicionaldexdadoy, ¿verdad?

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

La estimación de máxima verosimilitud intenta maximizar , ¿verdad? Si es así, estoy muy confundido, porque x , y son variables aleatorias, ¿verdad? Para maximizar p ( x | y ) es sólo para descubrir la Y ? Un problema más, si estas 2 variables aleatorias son independientes, entonces p ( x | y ) es solo p ( x ) , ¿verdad? Entonces maximizando p ( x | yp(x|y)x,yp(x|y) y^p(x|y)p(x) es maximizar p ( x ) .p(x|y)p(x)

O tal vez, es una función de algunos parámetros θ , es decir p ( x | y ; θ ) , y MLE intenta encontrar el θ que puede maximizar p ( x | y ) . O incluso que Y es, en realidad los parámetros del modelo, no variable aleatoria, lo que maximiza la probabilidad es encontrar la Y ?p(x|y)θp(x|y;θ)θp(x|y)yy^

ACTUALIZAR

Soy un novato en el aprendizaje automático, y este problema es una confusión de lo que leí en un tutorial de aprendizaje automático. Aquí es, dado un conjunto de datos observado , los valores objetivo son { y 1 , y 2 , . . . , y n } , y trato de ajustar un modelo sobre este conjunto de datos, por lo que supongo que, dado x , y tiene una forma de distribución llamada W parametrizada por θ , es decir{x1,x2,...,xn}{y1,y2,...,yn}xyWθ , y supongo que esta es laprobabilidad posterior, ¿verdad?p(y|x;θ)

Ahora para estimar el valor de , uso MLE. OK, aquí viene mi problema, creo que la probabilidad es p ( x | y ; θ ) , ¿verdad? ¿Maximizar la probabilidad significa que debería elegir el correcto θ y y ?θp(x|y;θ)θy

Si mi comprensión de la probabilidad es incorrecta, muéstrame el camino correcto.

aguacate
fuente
Creo que la confusión es esta: el teorema de Bayes es solo la manipulación de las probabilidades condicionales que da al comienzo de su pregunta. La Estimación Bayesiana hace uso del teorema de Bayes para hacer estimaciones de parámetros. Solo en este último, entran en juego la estimación de máxima verosimilitud (MLE) y el parámetro theta, etc.
Zhubarb
@Berkan, bueno, en realidad trato de averiguar qué probabilidad hay, dada . x,y,θ
aguacate
1
Ya veo, le recomendaría que eche un vistazo a este gran conjunto de diapositivas introductorias en la estimación de parámetros.
Zhubarb
1
Otro gran tema para leer es sobre los Estimadores empíricos de Bayes. Acabamos de enterarnos de
bdeonovic

Respuestas:

16

Creo que el malentendido principal proviene de las preguntas que haces en la primera mitad de tu pregunta. Me acerco a esta respuesta como MLE y paradigmas inferenciales bayesianos contrastantes. Una discusión muy accesible de MLE se puede encontrar en el capítulo 1 de Gary King, Unifying Political Methodology. El análisis de datos bayesianos de Gelman puede proporcionar detalles sobre el lado bayesiano.

En el teorema de Bayes, y del libro que estoy leyendo,p(x|y)se llama probabilidad, pero supongo que es solo la probabilidad condicional dexdadoy, ¿verdad?

p(y|x)=p(x|y)p(y)p(x)
p(x|y)xy

La probabilidad es una probabilidad condicional. Para un Bayesiano, esta fórmula describe la distribución del parámetro datos dados x y p ( y ) anteriores . Pero como esta notación no refleja su intención, de ahora en adelante usaré ( θ , y ) para los parámetros yx para sus datos.yxp(y)θyx

Pero su actualización indica que se observan desde alguna distribución p ( x | θ , y ) . Si colocamos nuestros datos y parámetros en los lugares apropiados en la regla de Bayes, encontramos que estos parámetros adicionales no plantean problemas para los bayesianos: p ( θ | x , y ) = p ( x , y | θ ) p ( θ )xp(x|θ,y)

p(θ|x,y)=p(x,y|θ)p(θ)p(x,y)

Creo que esta expresión es lo que buscas en tu actualización.

p(x,y|θ)

p(x,y|θ)p(θ|x,y)
p(θ,y)p(x)p(x)p(θ,y)p(θ,y)

x,y,θp(x,y|θ)θ^

θ^θθ^

Sycorax dice reinstalar a Mónica
fuente
1
Gracias por su respuesta, actualizo mi publicación, vea mi actualización.
aguacate
yx(x,y)xy
+1 Esta sigue siendo una gran respuesta: espero que la mantenga intacta en gran medida incluso si la modifica para que coincida con los cambios en la pregunta.
whuber
He actualizado mi respuesta para reflejar su pregunta actualizada. Espero que estos detalles ayuden. Realmente recomiendo consultar las referencias que menciono. Y espero que @whuber todavía lo apruebe. ;-)
Sycorax dice Reinstate Monica
p(y|x)x,yθ
3

p(x|y)y

p(θ|x)=p(x|θ)p(θ)p(x)

O incluso más explícitamente (con respecto a la noción de probabilidad):

p(θ|x)=L(θ;x)p(θ)p(x)

Para un ejemplo concreto, considere el modelo

X|θBinomial(θ)θBeta(α,β)
David Marx
fuente
yx
Y suele ser un parámetro en el pdf de X. En una configuración frecuenta, y normalmente es un valor fijo. En un entorno bayesiano, Y es en sí misma una variable aleatoria (como en el ejemplo que di). X | Y también puede ser una probabilidad condicional en el sentido que quieres decir, estaba tratando de darte la motivación detrás de por qué esa cantidad se llama probabilidad.
David Marx
θX
El hecho de que algo sea una variable aleatoria no significa que no pueda ser un parámetro. Bienvenido al maravilloso mundo de la probabilidad bayesiana :)
David Marx
0
  • p(x|y)

p(x|y)xy

  • p(x|y)p(x)p(x|y)p(x)

p(x|y)=p(x)p(x)yy

  • p(x|y)θp(x|y;θ)θp(x|y)y^

θyp(x|y;θ)θ

Palmadita
fuente
θxyθ
0

Del manual de referencia de STAN:

Si lo anterior es uniforme, el modo posterior corresponde a la estimación de máxima verosimilitud (MLE) de los parámetros. Si lo anterior no es uniforme, el modo posterior a veces se denomina la estimación máxima a posterior (MAP).

Neerav
fuente