... la pérdida esperada [error cuadrado] se puede descomponer en un término de sesgo cuadrado (que describe qué tan lejos están las predicciones promedio del modelo verdadero), un término de varianza (que describe la extensión de las predicciones alrededor del promedio), y un término de ruido (que da el ruido intrínseco de los datos).
Al observar la descomposición de pérdida de error al cuadrado
Solo veo dos términos: uno para el sesgo y otro para la varianza del estimador o predictor, δ ( X 1 : n ) . No hay término de ruido adicional en la pérdida esperada. Como debería ser, ya que la variabilidad es la variabilidad de δ ( X 1 : n ) , no de la muestra misma.
Eθ[(θ−δ(X1:n))2]=(θ−Eθ[δ(X1:n)])2+Eθ[(Eθ[δ(X1:n)]−δ(X1:n))2]
δ(X1:n)δ(X1:n)
- ¿Se puede realizar la descomposición de la variación de sesgo con funciones de pérdida distintas de la pérdida al cuadrado?
Mi interpretación del sesgo al cuadrado + descomposición de la varianza [y la forma en que lo enseño] es que este es el equivalente estadístico del Teorema de Pitágoras, a saber, que la distancia al cuadrado entre un estimador y un punto dentro de un determinado conjunto es la suma de la distancia al cuadrado entre un estimador y el conjunto, más la distancia al cuadrado entre la proyección ortogonal en el conjunto y el punto dentro del conjunto. Cualquier pérdida basada en una distancia con un nPara un conjunto de datos de modelo dado, ¿hay más de un modelo cuya pérdida esperada es la mínima en todos los modelos, y si es así, eso significa que podría haber diferentes combinaciones de sesgo y varianza que produzcan el La misma posición de pérdida mínima esperada de proyección ortogonal, es decir, un producto interno, es decir, esencialmente espacios de Hilbert, satisface esta descomposición.
- Para un conjunto de datos de modelo dado, ¿hay más de un modelo cuya pérdida esperada sea la mínima en todos los modelos, y si es así, eso significa que podría haber diferentes combinaciones de sesgo y varianza que produzcan la misma pérdida mínima esperada?
La pregunta no es clara: si al mínimo respecto a los modelos, usted se refiere
entonces hay muchos ejemplos de modelos estadísticos y decisiones asociadas con una constante pérdida esperada (o riesgo ) Tomemos, por ejemplo, el MLE de una media normal.
minθEθ[(θ−δ(X1:n))2]
- ¿Cómo puedes calcular el sesgo si no conoces el verdadero modelo?
En un sentido genérico, el sesgo es la distancia entre el modelo verdadero y el modelo más cercano dentro de la familia de distribuciones asumida. Si se desconoce el verdadero modelo, el sesgo se puede determinar mediante bootstrap.
- ¿Hay situaciones en las que tiene más sentido minimizar el sesgo o la varianza en lugar de la pérdida esperada (la suma del sesgo y la varianza al cuadrado)?
(θ−Eθ[δ(X1:n)])2+α[(Eθ[δ(X1:n)]−δ(X1:n))2]0<α
αα