En el teorema bayesiano, , y del libro que estoy leyendo,p(x|y)se llamaprobabilidad, pero supongo que es solo laprobabilidad condicionaldexdadoy, ¿verdad?
La estimación de máxima verosimilitud intenta maximizar , ¿verdad? Si es así, estoy muy confundido, porque x , y son variables aleatorias, ¿verdad? Para maximizar p ( x | y ) es sólo para descubrir la Y ? Un problema más, si estas 2 variables aleatorias son independientes, entonces p ( x | y ) es solo p ( x ) , ¿verdad? Entonces maximizando p ( x | y es maximizar p ( x ) .
O tal vez, es una función de algunos parámetros θ , es decir p ( x | y ; θ ) , y MLE intenta encontrar el θ que puede maximizar p ( x | y ) . O incluso que Y es, en realidad los parámetros del modelo, no variable aleatoria, lo que maximiza la probabilidad es encontrar la Y ?
ACTUALIZAR
Soy un novato en el aprendizaje automático, y este problema es una confusión de lo que leí en un tutorial de aprendizaje automático. Aquí es, dado un conjunto de datos observado , los valores objetivo son { y 1 , y 2 , . . . , y n } , y trato de ajustar un modelo sobre este conjunto de datos, por lo que supongo que, dado x , y tiene una forma de distribución llamada W parametrizada por θ , es decir , y supongo que esta es laprobabilidad posterior, ¿verdad?
Ahora para estimar el valor de , uso MLE. OK, aquí viene mi problema, creo que la probabilidad es p ( x | y ; θ ) , ¿verdad? ¿Maximizar la probabilidad significa que debería elegir el correcto θ y y ?
Si mi comprensión de la probabilidad es incorrecta, muéstrame el camino correcto.
fuente
Respuestas:
Creo que el malentendido principal proviene de las preguntas que haces en la primera mitad de tu pregunta. Me acerco a esta respuesta como MLE y paradigmas inferenciales bayesianos contrastantes. Una discusión muy accesible de MLE se puede encontrar en el capítulo 1 de Gary King, Unifying Political Methodology. El análisis de datos bayesianos de Gelman puede proporcionar detalles sobre el lado bayesiano.
La probabilidad es una probabilidad condicional. Para un Bayesiano, esta fórmula describe la distribución del parámetro datos dados x y p ( y ) anteriores . Pero como esta notación no refleja su intención, de ahora en adelante usaré ( θ , y ) para los parámetros yx para sus datos.y x p(y) θ y x
Pero su actualización indica que se observan desde alguna distribución p ( x | θ , y ) . Si colocamos nuestros datos y parámetros en los lugares apropiados en la regla de Bayes, encontramos que estos parámetros adicionales no plantean problemas para los bayesianos: p ( θ | x , y ) = p ( x , y | θ ) p ( θ )x p(x|θ,y)
Creo que esta expresión es lo que buscas en tu actualización.
fuente
O incluso más explícitamente (con respecto a la noción de probabilidad):
Para un ejemplo concreto, considere el modelo
fuente
fuente
Del manual de referencia de STAN:
fuente