En la pág. 34 de Introducción al aprendizaje estadístico :
Aunque la prueba matemática está más allá del alcance de este libro, es posible mostrar que la prueba esperada MSE, para un valor dado , siempre se puede descomponer en la suma de tres cantidades fundamentales: la varianza de , el sesgo al cuadrado de y la varianza de los términos de error . Es decir,
[...] La variación se refiere a la cantidad en la que cambiaría si lo estimáramos utilizando un conjunto de datos de entrenamiento diferente.
Pregunta: Dado que parece denotar la varianza de las funciones , ¿qué significa esto formalmente?
Es decir, estoy familiarizado con el concepto de la varianza de una variable aleatoria , pero ¿qué pasa con la varianza de un conjunto de funciones? ¿Se puede considerar esto simplemente como la varianza de otra variable aleatoria cuyos valores toman la forma de funciones?
fuente
Respuestas:
Su correspondencia con @whuber es correcta.
Un algoritmo de aprendizaje puede verse como una función de nivel superior, asignando conjuntos de entrenamiento a funciones.A
donde es el espacio de posibles conjuntos de entrenamiento. Esto puede ser un poco complicado conceptualmente, pero básicamente cada conjunto de entrenamiento individual resulta, después de usar el algoritmo de entrenamiento modelo, en una función específica que puede usarse para hacer predicciones dado un punto de datos .T f x
Si vemos el espacio de los conjuntos de entrenamiento como un espacio de probabilidad, de modo que haya una distribución de los posibles conjuntos de datos de entrenamiento, entonces el algoritmo de entrenamiento modelo se convierte en una variable aleatoria valorada en funciones, y podemos pensar en conceptos estadísticos. En particular, si arreglamos un punto de datos específico , obtenemos la variable aleatoria con valor numéricox0
Es decir, primero entrene el algoritmo en y luego evalúe el modelo resultante en . Esta es simplemente una variable aleatoria vieja, pero ingeniosamente construida en un espacio de probabilidad, por lo que podemos hablar sobre su varianza. Esta es la variación en su fórmula de ISL.T x0
fuente
Una interpretación visual usando kfolds repetidos
Para dar una interpretación visual / intuitiva a la respuesta de @Matthew Drury, considere el siguiente ejemplo de juguete.
Vea a continuación los gráficos resultantes para un modelo polinomial de grado 2 y grado 6. A primera vista, parece que el polinomio más alto (en rojo) tiene una mayor varianza.
Argumentando que el gráfico rojo tiene una mayor varianza - experimentalmente
Deje que y correspondan a los gráficos verde y rojo respectivamente y sea una instancia de los gráficos, en verde claro y rojo claro. Deje que sea el número de puntos a lo largo de la eje y es el número de gráficos (es decir, el número de simulaciones). Aquí tenemos yf^g f^r f^(i) n x m n=400 m=200
Veo tres escenarios principales
En el caso de este ejemplo de juguete, los tres escenarios son válidos en el rango que justifica el argumento de que el ajuste polinómico de orden superior (en rojo) tiene una varianza mayor que el polinomio de orden inferior (en verde).(0,1)
Una conclusión abierta
Lo que debería ser discutido cuando los tres escenarios anteriores no todo espera. Por ejemplo, ¿qué pasa si la varianza de las predicciones rojas es mayor en promedio, pero no para todos los puntos?
Detalles de las etiquetas
Considere el puntox0=0.5
fuente