La validación cruzada (CV) y las estadísticas de validación cruzada generalizada (GCV)

23

He encontrado definiciones posiblemente contradictorias para el estadístico de validación cruzada (CV) y para el estadístico de validación cruzada generalizada (GCV) asociado con un modelo lineal Y=Xβ+ε (con un vector de error normal, homoscedastic ε ).

Por un lado, Golub, Heath y Wahba definen la estimación del GCV λ^ como (p. 216)

el minimizador de V(λ) dado por

V(λ)=1n(IA(λ))y2(1ntr(IA(λ)))2
donde A(λ)=X(XTX+nλI)1XT

Por otro lado, Efron define el mismo concepto que V(0) (p. 24), pero atribuye la introducción de este concepto a Craven & Wahba, donde su definición (p. 377) es esencialmente la misma. como la definición mencionada anteriormente de Golub, Heath & Wahba.

¿Significa esto que 0 minimiza V(λ) ?

Del mismo modo, Golub, Heath y Wahba definen la estimación CV de λ (p. 217) como el minimizador de

P(λ)=1nk=1n([Xβ(k)(λ)]kyk)2

donde β(k)(λ) es la estimación

β^(λ)=(XTX+nλI)1XTy

de β con el k th punto de datos yi omitido.

Los autores atribuyen la introducción de la estimación de CV (también llamada estimación de PRENSA) a Allen ("PRENSA de Allen", ibid.) Sin embargo, en el artículo de Allen, la estimación de PRENSA se define (p. 126) como nP(0) (en el artículo de Efron se define como P(0) (p. 24)).

Nuevamente, ¿esto significa que 0 minimiza P(λ) ?


  1. Allen, David M. La relación entre la selección de variables y la agregación de datos y un método para la predicción. Technometrics, vol. 16, N ° 1 (febrero de 1974), págs. 125-127

  2. Craven, Peter y Wahba, Grace. Suavizar datos ruidosos con funciones de spline. Numerische Mathematik 31, (1979), págs. 377-403

  3. Efron, Bradley. ¿Qué tan sesgada es la tasa de error aparente de una regresión logística? Informe técnico no. 232. Departamento de Estadística, Universidad de Stanford (abril de 1985)

  4. Golub, Gene H., Heath y Grace Wahba. Validación cruzada generalizada como método para elegir un buen parámetro de cresta. Technometrics, vol. 21, núm. 2 (mayo de 1979), págs. 215-223

Evan Aad
fuente
77
¿Olvidaste mencionar que esto estará equipado con regresión de cresta y no menos cuadrados? Estaba totalmente confundido acerca de lo que era hasta que vi los títulos en papel en la parte inferiorλ
shadowtalker
1
Elimine Validación cruzada generalizada en el título y agregue Regresión de cresta en el título. Esto es lo que GridSearchCV () usa por defecto para RidgeCV ():
HoofarLotusX

Respuestas:

2

Creo que los comentarios apuntan a la respuesta, pero no lo dicen sin rodeos. Entonces seré directo.

La fórmula V citada aquí es específica para la regresión lineal de crestas. No dicen que es lo mismo que PRESS, dicen que es una versión de PRESS invariante en rotación. La parte "invariante de rotación" es lo que hace que esto sea generalizado.

El artículo de Efron trata sobre la regresión logística, personalizada para ese contexto. Si desea ver la traducción matemática entre los dos contextos, el libro correcto para leer es Elementos de aprendizaje estadístico, 2ed, de Hastie, Tibshirani y Freedman. Ofrecen ese libro gratis, en línea: https://web.stanford.edu/~hastie/Papers/ESLII.pdf . Otra lectura útil sobre GCV es Modelos aditivos generalizados de Simon Wood. Su tratamiento integra GCV en general con aplicaciones en regresión y regresión logística.

Si observa el libro de ESL, p. 244, verá básicamente la misma simbología. Se refieren a ese producto de matriz grande que tiene como la matriz más suave (yo diría que es una matriz Hat, o un primo cercano). Describen el Smoother como el mapeo de aSyYy^

y^=Sy

S se puede usar para calcular dejar uno fuera de los valores de CV, uno para cada fila en los datos. Para los modelos lineales , la matriz desempeña el papel de la matriz Hat en el diagnóstico de regresión. Sin embargo, dicen que puede ser computacionalmente desafiante o innecesario resolver eso, y el enfoque GCV es una versión ligeramente más general de la misma idea.SS

Ofrecen una fórmula para la aproximación de GCV:

GCV(f^)=1Ni=1N[yif^(xi)1trace(S)/N]2

Este comportamiento es bastante similar al AIC en muchos modelos. La es el número efectivo de parámetros.traceS

El pieza que usted cita es más generalmente un rastro de . Por lo que puedo entender, en el resumen GCV es una versión aproximada de la validación cruzada de dejar uno fuera, pero en algunos casos, (creo que la regresión de cresta), es exacta. Ese es un punto principal en el documento de Golub.nλS

Buena suerte, vuelve a escribir si aprendes más.

pauljohn32
fuente
Gracias. Publiqué mi pregunta hace más de 5 años, y desde entonces he olvidado la mayor parte de este material, por lo que no puedo evaluar su respuesta para saber si es buena (lo que parece ser) o mala, y, por esta razón Yo tampoco puedo aceptarlo. Gracias por publicar, sin embargo. Esperemos que sea útil para otros que puedan encontrar esta página.
Evan Aad