¿Qué se entiende por la varianza de * funciones * en * Introducción al aprendizaje estadístico *?

11

En la pág. 34 de Introducción al aprendizaje estadístico :

Aunque la prueba matemática está más allá del alcance de este libro, es posible mostrar que la prueba esperada MSE, para un valor dado x0 , siempre se puede descomponer en la suma de tres cantidades fundamentales: la varianza de f^(x0) , el sesgo al cuadrado de f^(x0) y la varianza de los términos de error ε . Es decir,

E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)

[...] La variación se refiere a la cantidad en la que f^ cambiaría si lo estimáramos utilizando un conjunto de datos de entrenamiento diferente.

Pregunta: Dado que Var(f^(x0)) parece denotar la varianza de las funciones , ¿qué significa esto formalmente?

Es decir, estoy familiarizado con el concepto de la varianza de una variable aleatoria X , pero ¿qué pasa con la varianza de un conjunto de funciones? ¿Se puede considerar esto simplemente como la varianza de otra variable aleatoria cuyos valores toman la forma de funciones?

Jorge
fuente
66
Dado que cada vez que aparece en una fórmula, se ha aplicado a un "valor dado" , la variación se aplica al número , no a sí. Dado que ese número presumiblemente se ha desarrollado a partir de datos modelados con variables aleatorias, también es una variable aleatoria (con valor real). Se aplica el concepto habitual de varianza. f^x0 f^(x0)f^
whuber
2
Veo. Entonces está cambiando (variando a través de diferentes conjuntos de datos de entrenamiento), pero aún observamos la varianza de los sí mismos. f^f^(x0)
George
¿Quién es el autor de este libro de texto? He querido aprender el tema yo mismo y agradecería mucho su recomendación de referencia.
Chill2Macht
3
@WilliamKrinsman Este es el libro: www-bcf.usc.edu/~gareth/ISL
Matthew Drury el

Respuestas:

13

Su correspondencia con @whuber es correcta.

Un algoritmo de aprendizaje puede verse como una función de nivel superior, asignando conjuntos de entrenamiento a funciones.A

A:T{ff:XR}

donde es el espacio de posibles conjuntos de entrenamiento. Esto puede ser un poco complicado conceptualmente, pero básicamente cada conjunto de entrenamiento individual resulta, después de usar el algoritmo de entrenamiento modelo, en una función específica que puede usarse para hacer predicciones dado un punto de datos .Tfx

Si vemos el espacio de los conjuntos de entrenamiento como un espacio de probabilidad, de modo que haya una distribución de los posibles conjuntos de datos de entrenamiento, entonces el algoritmo de entrenamiento modelo se convierte en una variable aleatoria valorada en funciones, y podemos pensar en conceptos estadísticos. En particular, si arreglamos un punto de datos específico , obtenemos la variable aleatoria con valor numéricox0

Ax0(T)=A(T)(x0)

Es decir, primero entrene el algoritmo en y luego evalúe el modelo resultante en . Esta es simplemente una variable aleatoria vieja, pero ingeniosamente construida en un espacio de probabilidad, por lo que podemos hablar sobre su varianza. Esta es la variación en su fórmula de ISL.Tx0

Matthew Drury
fuente
5

Una interpretación visual usando kfolds repetidos

Para dar una interpretación visual / intuitiva a la respuesta de @Matthew Drury, considere el siguiente ejemplo de juguete.

  • Los datos se generan a partir de una curva senoidal ruidosa: "True noise"f(x) +
  • Los datos se dividen entre muestras de entrenamiento y pruebas (75% - 25%)
  • Se ajusta un modelo lineal (polinomial) a los datos de entrenamiento:f^(x)
  • El proceso se repite muchas veces usando los mismos datos (es decir, dividiendo el entrenamiento - probando al azar usando Sklearm repetido kfold)
  • Esto genera muchos modelos diferentes, a partir de los cuales calculamos la media y la varianza en cada punto , así como en todos los puntos.x=xi

Vea a continuación los gráficos resultantes para un modelo polinomial de grado 2 y grado 6. A primera vista, parece que el polinomio más alto (en rojo) tiene una mayor varianza.

ingrese la descripción de la imagen aquí

Argumentando que el gráfico rojo tiene una mayor varianza - experimentalmente

Deje que y correspondan a los gráficos verde y rojo respectivamente y sea ​​una instancia de los gráficos, en verde claro y rojo claro. Deje que sea el número de puntos a lo largo de la eje y es el número de gráficos (es decir, el número de simulaciones). Aquí tenemos yf^gf^rf^(i)nxmn=400m=200

Veo tres escenarios principales

  1. La varianza de los valores pronosticados en un punto específico es mayor, es decir,x=x0Var [{f^r(1)(x0),...,f^r(m)(x0)}]>Var [{f^g(1)(x0),...,f^g(i)(x0)}]
  2. La varianza en es mayor para todos los puntos en el rango (1) {x1,...,x400}(0,1)
  3. La varianza es mayor en promedio (es decir, puede ser menor para algunos puntos)

En el caso de este ejemplo de juguete, los tres escenarios son válidos en el rango que justifica el argumento de que el ajuste polinómico de orden superior (en rojo) tiene una varianza mayor que el polinomio de orden inferior (en verde).(0,1)

Una conclusión abierta

Lo que debería ser discutido cuando los tres escenarios anteriores no todo espera. Por ejemplo, ¿qué pasa si la varianza de las predicciones rojas es mayor en promedio, pero no para todos los puntos?

Detalles de las etiquetas

Considere el puntox0=0.5

  • La barra de error es el rango entre mínimo y máximo def^(x0)
  • La varianza se calcula enx0
  • Verdadero es la línea azul punteadaf(x)
Xavier Bourret Sicotte
fuente
Me gusta esta idea de ilustrar un concepto usando imágenes. Sin embargo, me pregunto sobre dos aspectos de tu publicación y espero que puedas abordarlos. Primero, ¿podría explicar más explícitamente cómo estas gráficas muestran la "varianza de una función"? En segundo lugar, no está nada claro que la gráfica roja muestre "mayor variación" o incluso que las dos gráficas sean susceptibles de una comparación tan simplista. Considere la dispersión vertical de los valores rojos por encima de por ejemplo, y compárelo con la propagación de los valores verdes en el mismo punto: los rojos se ven un poco menos extendidos que los verdes. x=0.95,
whuber
Mi punto no es si es posible leer sus gráficas con alta precisión: es que el significado de comparar dos gráficas como si una pudiera considerarse de varianza "más alta" o "más baja" que la otra es cuestionable, dada la posibilidad de que en algunos rangos de las variaciones de las predicciones serán más altas en un gráfico y para otros rangos de las variaciones serán más bajas. xx
whuber
Sí, estoy de acuerdo. He editado la publicación para reflejar sus comentarios
Xavier Bourret Sicotte