Estoy luchando por comprender la derivación del error de predicción esperado a continuación (ESL), especialmente en la derivación de 2.11 y 2.12 (condicionamiento, el paso hacia el mínimo puntual). Cualquier puntero o enlace muy apreciado.
A continuación estoy informando el extracto de ESL pág. 18. Las dos primeras ecuaciones son, en orden, las ecuaciones 2.11 y 2.12.
Supongamos que denota un vector de entrada aleatorio con valor real, e una variable de salida aleatoria con valor real, con distribución conjunta . Buscamos una función para predecir valores dados de la entrada . Esta teoría requiere una función de pérdida para penalizar los errores en la predicción, y con mucho, el más común y conveniente es la pérdida de error al cuadrado : . Esto nos lleva a un criterio para elegir ,
El error de predicción esperado (al cuadrado). Al condicionar en , podemos escribir EPE como
y vemos que es suficiente minimizar EPE puntualmente:
La solucion es
La expectativa condicional, también conocida como la función de regresión .
fuente
Respuestas:
fuente
La ecuación (2.11) es una consecuencia de la siguiente pequeña igualdad. Para cualquiera de las dos variables aleatorias y , y cualquier funciónZ1 Z2 g
La notación es la expectativa sobre la distribución conjunta . La notación esencialmente dice "integrar sobre la distribución condicional de como si estuviera arreglado".EZ1,Z2 EZ1∣Z2 Z1 Z2
Es fácil verificar esto en el caso de que y sean variables aleatorias discretas simplemente desenrollando las definiciones involucradasZ1 Z2
El caso continuo puede verse informalmente como un límite de este argumento, o verificarse formalmente una vez que todas las medidas teóricas están en su lugar.
Para desenrollar la aplicación, tome , y . Todo se alinea exactamente.Z1=Y Z2=X g(x,y)=(y−f(x))2
La afirmación (2.12) nos pide que consideremos minimizar
donde somos libres de elegir como lo deseemos. Una vez más, centrándonos en el caso discreto y cayendo a mitad de camino en el desenrollado anterior, vemos que estamos minimizandof
Todo dentro del paréntesis grande no es negativo, y puede minimizar una suma de cantidades no negativas minimizando los sumandos individualmente. En contexto, esto significa que podemos elegir para minimizarf
individualmente para cada valor discreto de . Este es exactamente el contenido de lo que ESL reclama, solo con una notación más elegante.x
fuente
Encuentro que algunas partes de este libro se expresan de una manera que es difícil de entender, especialmente para aquellos que no tienen una sólida formación en estadística.
Trataré de hacerlo simple y espero que puedas deshacerte de la confusión.
Reclamación 1 (suavizado)E(X)=E(E(X|Y)),∀X,Y
Prueba : tenga en cuenta que E (Y) es una constante pero E (Y | X) es una variable aleatoria que depende de X.
Reclamación 2 :E(Y−f(X))2≥E(Y−E(Y|X))2,∀f
Prueba :
Teniendo en cuenta que ambos lados de la ecuación anterior dan la Reclamación 2 (QED)
Por lo tanto, la f óptima esf(X)=E(Y|X)
fuente