La similitud es más que superficial.
El "compromiso de variación de sesgo" puede interpretarse como el teorema de Pitágoras aplicado a dos vectores euclidianos perpendiculares: la longitud de uno es la desviación estándar y la longitud del otro es el sesgo. La longitud de la hipotenusa es la raíz del error cuadrático medio.
Una relacion fundamental
Como punto de partida, considere este cálculo revelador, válido para cualquier variable aleatoria con un segundo momento finito y cualquier número real . Como el segundo momento es finito, tiene una media finita para la cual , de dondea X μ = E ( X ) E ( X - μ ) = 0XaXμ=E(X)E(X−μ)=0
E((X−a)2)=E((X−μ+μ−a)2)=E((X−μ)2)+2E(X−μ)(μ−a)+(μ−a)2=Var(X)+(μ−a)2.(1)
Esto muestra cómo la desviación al cuadrado medio entre y cualquier valor "línea de base" varía con : es una función cuadrática de con un mínimo en , donde la desviación media al cuadrado es la varianza de .a a a μ XXaaaμX
La conexión con estimadores y sesgo
Cualquier estimador es una variable aleatoria porque (por definición) es una función (medible) de variables aleatorias. Dejando que desempeñe el papel de en el precedente, y dejando que el estimado (la cosa se supone que debe estimar) sea , tenemos X θ θθ^Xθ^θ
MSE(θ^)=E((θ^−θ)2)=Var(θ^)+(E(θ^)−θ)2.
Volvamos a ahora que hemos visto cómo la afirmación sobre sesgo + varianza para un estimador es literalmente un caso de . La pregunta busca "analogías matemáticas con objetos matemáticos". Podemos hacer más que eso mostrando que las variables aleatorias integrables al cuadrado pueden convertirse naturalmente en un espacio euclidiano.(1)(1)
Antecedentes matemáticos
En un sentido muy general, una variable aleatoria es una función de valor real (medible) en un espacio de probabilidad . El conjunto de tales funciones que son integrables al cuadrado, que a menudo se escribe (con la estructura de probabilidad dada entendida), casi es un espacio de Hilbert. Para convertirlo en uno, tenemos que combinar dos variables aleatorias e que realmente no difieren en términos de integración: es decir, decimos que e son equivalentes siempre que sea(Ω,S,P)L2(Ω)XYXY
E(|X−Y|2)=∫Ω|X(ω)−Y(ω)|2dP(ω)=0.
Es sencillo comprobar que se trata de una verdadera relación de equivalencia: es más importante, cuando es equivalente a y es equivalente a , entonces necesariamente será equivalente a . Por lo tanto, podemos dividir todas las variables aleatorias integrables al cuadrado en clases de equivalencia. Estas clases forman el conjunto . Además, hereda la estructura de espacio vectorial de definida por la suma puntual de valores y la multiplicación escalar puntual. En este espacio vectorial, la funciónXYYZXZL2(Ω)L2L2
X→(∫Ω|X(ω)|2dP(ω))1/2=E(|X|2)−−−−−−√
es una norma , a menudo escrita . Esta norma convierte a en un espacio de Hilbert. Piense en un espacio de Hilbert como un "espacio euclidiano de dimensión infinita". Cualquier subespacio de dimensión finita hereda la norma de y , con esta norma, es un espacio euclidiano: podemos hacer geometría euclidiana en él.||X||2L2(Ω)HV⊂HHV
Finalmente, necesitamos un hecho que sea especial para espacios de probabilidad (en lugar de espacios de medida general): porque es una probabilidad, está limitada (por ), de donde las funciones constantes (para cualquier número real fijo ) son variables aleatorias integrables cuadradas con normas finitas.P1ω→aa
Una interpretación geométrica
Considere cualquier variable aleatoria integrable al cuadrado , considerada como un representante de su clase de equivalencia en . Tiene una media que (como se puede comprobar) sólo depende de la clase de equivalencia de . Sea la clase de la variable aleatoria constante.XL2(Ω)μ=E(X)X1:ω→1
X y generan un subespacio euclidiano cuya dimensión es como máximo . En este subespacio, es la longitud al cuadrado de y es la longitud al cuadrado de la variable aleatoria constante . Es fundamental que sea perpendicular a . (Una definición de es que es el número único para el cual es este el caso). Se puede escribir la relación1V⊂L2(Ω)2||X||22=E(X2)X||a1||22=a2ω→aX−μ11μ(1)
||X−a1||22=||X−μ1||22+||(a−μ)1||22.
De hecho, es precisamente el Teorema de Pitágoras, esencialmente en la misma forma conocida hace 2500 años. El objeto es la hipotenusa de un triángulo rectángulo con patas y .
X−a1=(X−μ1)−(a−μ)1
X−μ1(a−μ)1
Si desea analogías matemáticas, entonces, puede usar cualquier cosa que pueda expresarse en términos de la hipotenusa de un triángulo rectángulo en un espacio euclidiano. La hipotenusa representará el "error" y las piernas representarán el sesgo y las desviaciones de la media.
Esta es una forma de pensar visualmente acerca de la precisión y el equilibrio del sesgo de varianza. Supongamos que está mirando un objetivo y realiza muchos disparos que están dispersos cerca del centro del objetivo de tal manera que no haya sesgo. Entonces, la precisión está determinada únicamente por la varianza y cuando la varianza es pequeña, el tirador es exacto.
Ahora consideremos un caso donde hay una gran precisión pero un gran sesgo. En este caso, los disparos se encuentran dispersos alrededor de un punto alejado del centro. Algo está arruinando el punto de puntería pero alrededor de este punto de puntería cada disparo está cerca de ese nuevo punto de puntería. El tirador es preciso pero muy impreciso debido al sesgo.
Hay otras situaciones en las que los disparos son precisos debido al pequeño sesgo y la alta precisión. Lo que queremos es no sesgo y pequeña varianza o pequeña varianza con pequeño sesgo. En algunos problemas estadísticos no puedes tener ambos. Por lo tanto, MSE se convierte en la medida de precisión que desea utilizar que juega con el equilibrio de sesgo de varianza y minimizar MSE debería ser el objetivo.
fuente