Prueba de fórmula LOOCV

18

De una Introducción al aprendizaje estadístico de James et al., La estimación de validación cruzada de dejar uno fuera (LOOCV) se define por

CV(n)=1ni=1nMSEi
dondeMSEi=(yiy^i)2.

Sin prueba, la ecuación (5.2) establece que para una regresión de mínimos cuadrados o polinomios (si esto se aplica a la regresión en una sola variable es desconocida para mí),

CV(n)=1ni=1n(yiy^i1hi)2
donde "Yies eliº valor ajustado del original ajuste por mínimos cuadrados (ni idea de lo que esto significa, por cierto, significa el uso detodo? De los puntos en el conjunto de datos) yhies el apalancamiento "que se define porhi=1y^iihi
hi=1n+(xix¯)2j=1n(xjx¯)2.

¿Cómo se prueba esto?

Mi intento: uno podría empezar por notando que y i = β 0 + k Σ i = 1 β k X k + algunos términos polinomio de grado  2 , pero aparte de esto (y si recuerdo, que la fórmula para h i es de sólo cierto para la regresión lineal simple ...), no estoy seguro de cómo proceder desde aquí.

y^i=β0+i=1kβkXk+some polynomial terms of degree 2
hi
Clarinetista
fuente
O tus ecuaciones parecen usar para más de una cosa o estoy muy confundido. De cualquier manera, una claridad adicional sería buena. i
Glen_b -Reinstale a Monica el
@Glen_b Ayer me enteré de LOOCV, por lo que es posible que no entienda algunas cosas correctamente. Por lo que entiendo, tiene un conjunto de puntos de datos, digamos . Con LOOCV, tiene para cada k fijo (entero positivo) k k . Digamos, por ejemplo, que ajustamos nuestro modelo usando regresión lineal simple con tres puntos de datos, X = { ( 0 , 1X={(xi,yi):iZ+}k un conjunto de validación y un conjunto de prueba T k = XV k utilizado para generar un modelo ajustado para cadaVk={(xk,yk)}Tk=XVkk . Tendríamos (continuará)X={(0,1),(1,2),(2,3)}
Clarinetista
@Glen_b y T 1 = { ( 1 , 2 ) , ( 2 , 3 ) } . El uso de los puntos en T 1 , podemos encontrar que el uso de una regresión lineal simple, obtenemos el modelo y i = X + 1 . Luego calculamos el MSE usando V 1 como el conjunto de validación y obtenemos y 1 = 1V1={(0,1)}T1={(1,2),(2,3)}T1y^i=X+1MSEV1y1=1(simplemente usando el punto dado) y Y , dando MSE 1 = 0 . De acuerdo, tal vez usar el superíndice no fue la mejor idea: cambiaré esto en la publicación original. y^1(1)=0+1=1MSE1=0
Clarinetista
Aquí hay algunas notas de la conferencia en las páginas de
Xavier Bourret Sicotte

Respuestas:

17

Mostraré el resultado para cualquier regresión lineal múltiple, ya sea que los regresores sean polinomios de o no. De hecho, muestra un poco más de lo que solicitó, porque muestra que cada residuo de LOOCV es idéntico al residual ponderado por apalancamiento correspondiente de la regresión completa, no solo que puede obtener el error de LOOCV como en (5.2) (hay podrían ser otras formas en que los promedios están de acuerdo, incluso si no cada término en el promedio es el mismo).Xt

Permítanme tomar la libertad de usar notación ligeramente adaptada.

Se demuestra en primer lugar que β donde β es la estimación utilizando todos los datos y β (t)la estimación cuando dejando deX(t), la observaciónt. DejeXtser definido como un vector fila de tal manera que y t=Xt β . U tson los residuos.

β^β^(t)=(u^t1ht)(XX)1Xt,(A)
β^β^(t)X(t)tXty^t=Xtβ^u^t

La prueba utiliza el siguiente resultado algebraico matricial.

Sea una matriz no singular, b un vector y λ un escalar. Si λAbλ Entonces (A+λbb)-1

λ1bA1b
(A+λbb)1=A1(λ1+λbA1b)A1bbA1(B) 

{A1(λ1+λbA1b)A1bbA1}(A+λbb)=I.

El siguiente resultado es útil para probar (A)

(X(t)X(t))1Xt=(11ht)(XX)1Xt. (C)

t=1TXtXt=XX

(X(t)X(t))1=(XXXtXt)1=(XX)1+(XX)1XtXt(XX)11Xt(XX)1Xt.
So we find
(X(t)X(t))1Xt=(XX)1Xt+(XX)1Xt(Xt(XX)1Xt1Xt(XX)1Xt)=(11ht)(XX)1Xt.

The proof of (A) now follows from (C): As

XXβ^=Xy,
we have
(X(t)X(t)+XtXt)β^=X(t)y(t)+Xtyt,
or
{Ik+(X(t)X(t))1XtXt}β^=β^(t)+(X(t)X(t))1Xt(Xtβ^+u^t).
So,
β^=β^(t)+(X(t)X(t))1Xtu^t=β^(t)+(XX)1Xtu^t1ht,
where the last equality follows from (C).

Now, note ht=Xt(XX)1Xt. Multiply through in (A) by Xt, add yt on both sides and rearrange to get, with u^(t) the residuals resulting from using β^(t) (ytXtβ^(t)),

u^(t)=u^t+(u^t1ht)ht
or
u^(t)=u^t(1ht)+u^tht1ht=u^t1ht
Christoph Hanck
fuente
The definition for X(t) is missing in your answer. I assume this is a matrix X with row Xt removed.
mpiktas
Also mentioning the fact that XX=t=1TXtXt would be helpful too.
mpiktas
@mpiktas, yes, thanks for the pointers. I edited to take the first comment into account. Where exactly would the second help? Or just leave it in your comment?
Christoph Hanck
3
When you start the proof of (C) you write (X(t)X(t))1=(XXXtXt)1. That is a nice trick, but I doubt that casual reader is aware of it.
mpiktas
1
Two years later... I appreciate this answer even more, now that I've gone through a graduate-level linear models sequence. I'm re-learning this material with this new perspective. Do you have any suggested references (textbooks?) which go through derivations like what you have in this answer in detail?
Clarinetist