Estoy leyendo PRML y no entiendo la imagen. ¿Podría darnos algunas pistas para comprender la imagen y por qué el MLE de la varianza en una distribución gaussiana está sesgado?
fórmula 1.55: fórmula 1.56 σ 2 M L E =1
machine-learning
self-study
maximum-likelihood
ningyuwhut
fuente
fuente
Respuestas:
Intuición
El sesgo "proviene" (no es en absoluto un término técnico) del hecho de que está sesgado para . La pregunta natural es: "bueno, ¿cuál es la intuición de por qué está sesgado para "? La intuición es que en una media de muestra no cuadrada, a veces perdemos el valor verdadero por sobreestimar y otras por subestimar. Pero, sin cuadrar, la tendencia a sobreestimar y subestimar se cancelará mutuamente. Sin embargo, cuando ajustamos la tendencia a subestimar (perder el verdadero valor deμ 2 E [ ˉ x 2 ] μ 2 μ ˉ x μE[x¯2] μ2 E[x¯2] μ2 μ x¯ μ por un número negativo) también se eleva al cuadrado y, por lo tanto, se vuelve positivo. Por lo tanto, ya no se cancela y hay una ligera tendencia a sobreestimar.
Si la intuición detrás de por qué está sesgada para todavía no está clara, intente comprender la intuición detrás de la desigualdad de Jensen (buena explicación intuitiva aquí ) y aplíquela a .μ 2 E [ x 2 ]x2 μ2 E[x2]
Probemos que el MLE de varianza para una muestra iid está sesgado. Luego verificaremos analíticamente nuestra intuición.
Prueba
Sea .σ^2=1N∑Nn=1(xn−x¯)2
Queremos mostrar .E[σ^2]≠σ2
Usando el hecho de que y ,∑Nn=1xn=Nx¯ ∑Nn=1x¯2=Nx¯2
Con el último paso siguiente debido a que es igual en debido a que proviene de la misma distribución.E[x2n] n
Ahora, recuerde la definición de varianza que dice . A partir de aquí, obtenemos lo siguienteσ2x=E[x2]−E[x]2
Tenga en cuenta que hemos ajustado adecuadamente la constante al sacarla de . ¡Presta especial atención a eso!1N Var()
que, por supuesto, no es igual a .σ2x
Verifique analíticamente nuestra intuición
Podemos verificar algo la intuición suponiendo que conocemos el valor de y conectándolo a la prueba anterior. Como ahora sabemos , ya no tenemos la necesidad de estimar y, por lo tanto, nunca lo sobreestimamos con . Veamos que esto "elimina" el sesgo en .μ μ μ2 E[x¯2] σ^2
Deje que .σ^2μ=1N∑Nn=1(xn−μ)2
De la prueba anterior, tomemos reemplazando con el valor verdadero .ˉ x μE[x2n]−E[x¯2] x¯ μ
que es imparcial!
fuente