Descomposición de MSE a varianza y sesgo al cuadrado

23

Al demostrar que MSE se puede descomponer en varianza más el cuadrado de Bias, la prueba en Wikipedia tiene un paso, resaltado en la imagen. ¿Como funciona esto? ¿Cómo se empuja la expectativa al producto desde el tercer paso hasta el cuarto paso? Si los dos términos son independientes, ¿no debería aplicarse la expectativa a ambos términos? y si no lo son, ¿es válido este paso?ingrese la descripción de la imagen aquí

statBeginner
fuente

Respuestas:

22

El truco es que es una constante.E(θ^)θ

AdamO
fuente
1
Oh ya veo. El único desconocido aquí es el estimador. ¿Correcto?
statBeginner
2
Sí. Teniendo medios expectativa de que el estimador va a lo que está estimando, eso es lo que hace que la ir a 0.E(θ^E(θ^))
Adamo
55
Lo siento, esa frase no tiene mucho sentido para mí. Si un estimador fue a lo que sea que estaba estimando, ¿no lo haría imparcial? ¿Se puede explicar diciendo = E ( θ ) - E ( E ( θ ) ) = E ( θ ) - E ( θ ) = 0? E(θ^E(θ^))E(θ^)E(E(θ^))E(θ^)E(θ^)
user1158559
@ user1158559 el término del producto en el medio es constante por algo con el valor esperado 0. Incluso si theta-hat está sesgado, sigue siendo una constante por 0.
AdamO
3
es una variable y no una constante. Además, el truco es menos trivial y E ( c ) con c una constante no se convierte en 0 como el valor predeterminado (por ejemplo E ( ( E ( θ ) - θ ) 2 ) 0 ). El verdadero truco radica en el hecho de quex p ( x ) es la constante (y se puede sacar de una integral) por lo que( x p ( xE(θ^)θE(c)cE((E(θ^)θ)2)0xp(x)(xp(x))p(x)=(xp(x))p(x)=(xp(x))1=(xp(x))
Sextus Empiricus
4

La respuesta de Adán es correcta sobre el truco que es una constante. Sin embargo, ayuda a encontrar el resultado final, y no explica claramente la pregunta sobre el paso específico en el artículo de wikipedia (editar: lo que veo ahora es ambiguo sobre lo más destacado y el paso de la línea tres a la línea cuatro).E(θ^)θ

(tenga en cuenta que la pregunta es acerca de la variable de , que difiere de la constante E [ θ ] - θ en la respuesta de Adán me escribió esta mal en mi comentario La ampliación de los términos para mayor claridad:. al. la variable se calcula θ , son constantes las expectativas de esta estimación e [ θ ] y el valor real θ )E[θ^]θ^ E[θ^]θθ^E[θ^]θ

Truco 1: considerar

la variable x=θ^

la constante de a=E[θ^]

y la constante b=θ

Luego, la relación se puede escribir fácilmente usando las reglas de transformación que expresan los momentos de la variable sobre b en términos de los momentos de la variable x sobre a .xbxa

E[(xb)n]=i=0n(ni)E[(xa)i](ab)ni

Truco 2: por segundo momento, la fórmula anterior tiene tres términos en la suma. Podemos eliminar uno de ellos (el caso ), ya que E [ ( θ - E [ θ ] ) ] = E [ θ ] - E [ E [ θ ] ] = 0i=1E[(θ^E[θ^])]=E[θ^]E[E[θ^]]=0

Aquí también se puede argumentar con algo siendo constante. A saber, si a es una constante y usando a = E ( θ ) , que es una constante, obtienes E ( E ( θ ) ) = E ( θ ) .E(a)=aaa=E(θ)E(E(θ))=E(θ)

More intuitively: we made the moment of x about a, equal to a central moment (and the odd central moments are zero). We get a bit of a tautology. By substracting the mean from the variable, θ^E[θ^], we generate a variable with mean zero. And, the mean of 'a variable with mean zero' is zero.


The wikipedia article uses these two tricks in respectively the third and fourth line.

  • The nested expectation in the third line

    E[(θ^E(θ^))(E(θ^)θ)]

    is simplified by taking the constant part (E(θ^)θ) outside of it (trick 1).

  • The term E(θ^E(θ^)) is solved (as equal to zero) by using the fact that the variable θ^E(θ^) has mean zero (trick 2).

Sextus Empiricus
fuente
3

E(θ^)θ is not a constant.

The comment of @user1158559 is actually the correct one:

E[θ^E(θ^)]=E(θ^)E[E(θ^)]=E(θ^)E(θ^)=0
little_monster
fuente
I don't see what you are trying to show. Also the bias may not be zero but that does not mean that it isn't a constant.
Michael R. Chernick
It is not a constant because θ^=f(D) where D is a given training data, which is also a random variable. Thus, its expectation is not a constant.
little_monster
Also, the fact that it is not a constant or not cannot explain how step 4 is possible from step 3. On the other hand, the comment of @ user1158559 explains that.
little_monster
@Michael, there has been confusion about the question. The highlighted part contains this expression E(θ^E(θ^))=0, but in the text of the question it is mentioned that it is instead about the change from the third line to the fourth line, changing the nesting of expectations.
Sextus Empiricus