Confundido por la derivación de la función de regresión

9

Acabo de recibir una copia de Los elementos del aprendizaje estadístico de Hastie, Tibshirani y Friedman. En el capítulo 2 (Descripción general del aprendizaje supervisado), sección 4 (Teoría de decisión estadística), ofrece una derivación de la función de regresión.

Supongamos que denota un vector de entrada aleatorio con valor real, e una variable de salida aleatoria con valor real, con distribución conjunta . Buscamos una función para predecir valores dados de la entrada . Esta teoría requiere una función de pérdida para penalizar los errores en la predicción, y con mucho, el más común y conveniente es la pérdida de error al cuadrado: . Esto nos lleva a un criterio para elegir ,XRpYRPr(X,Y)f(X)YXL(Y,f(X))L(Y,f(X))=(Yf(X))2f

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)
lo esperado (cuadrado) error de predicción.

Entiendo completamente la configuración y la motivación. Mi primera confusión es: ¿quiere decir o ? Segundo, nunca he visto la notación . ¿Alguien que me haya explicado su significado? ¿Es solo que ? Por desgracia, mi confusión no termina ahí,E[(Yf(x))]2E[(Yf(x))2]Pr(dx,dy)Pr(dx)=Pr(x)dx

Al condicionar , podemos escribir comoXEPE

EPE(f)=EXEY|X([Yf(X)]2|X)

Me falta la conexión entre estos dos pasos, y no estoy familiarizado con la definición técnica de "condicionamiento". ¡Avísame si puedo aclarar algo! Creo que la mayor parte de mi confusión ha surgido de una notación desconocida; Estoy seguro de que, si alguien puede dividir esta derivación en un inglés simple, lo entenderé. Gracias estadísticas.

Orangutango
fuente

Respuestas:

11

Para su primera confusión, debe ser Expectativa de error al cuadrado, por lo que esE[(Yf(x))2].

Para la notación de , es igual a , donde es el pdf conjunto de x e y. Y , esto puede interpretarse como la probabilidad de que x esté dentro de un pequeño intervalo de es igual al valor de pdf en el punto , es decir, veces la longitud del intervalo .Pr(dx,dy)g(x,y)dxdyg(x,y)Pr(dx)=f(x)dx[x,x+dx]xf(x)dx

La ecuación de la EPE se deriva del teorema para cualquier par de variables aleatorias y . Puede probar esto usando la distribución condicional. La expectativa condicional es la expectativa calculada usando la distribución condicional. La distribución condicional significa la probabilidad de después de saber algo acerca de .E(E(Y|X))=E(Y)XYY|XYX

En nuestro caso, supongamos que denotamos el error al cuadrado como una función , el EPE está calculandoL(x,y)=(yf(x))2

E(L(x,y))=L(x,y)g(x,y)dxdy=[L(x,y)g(y|x)g(x)dy]dx=[L(x,y)g(y|x)dy]g(x)dx=[EY|X(L(x,y)]g(x)dx=EX(EY|X(L(x,y)))

El resultado anterior corresponde al resultado que usted enumeró. Espero que esto pueda ayudarte un poco.

alemán
fuente
1
Para el resultado final después del acondicionamiento, el libro también tiene la | X, mientras que el resultado final de esta respuesta no se encuentra. ¿Es importante?
robertmartin8