He encontrado definiciones posiblemente contradictorias para el estadístico de validación cruzada (CV) y para el estadístico de validación cruzada generalizada (GCV) asociado con un modelo lineal (con un vector de error normal, homoscedastic ).
Por un lado, Golub, Heath y Wahba definen la estimación del GCV como (p. 216)
el minimizador de dado por
donde
Por otro lado, Efron define el mismo concepto que (p. 24), pero atribuye la introducción de este concepto a Craven & Wahba, donde su definición (p. 377) es esencialmente la misma. como la definición mencionada anteriormente de Golub, Heath & Wahba.
¿Significa esto que minimiza ?
Del mismo modo, Golub, Heath y Wahba definen la estimación CV de (p. 217) como el minimizador de
donde es la estimación
de con el th punto de datos omitido.
Los autores atribuyen la introducción de la estimación de CV (también llamada estimación de PRENSA) a Allen ("PRENSA de Allen", ibid.) Sin embargo, en el artículo de Allen, la estimación de PRENSA se define (p. 126) como (en el artículo de Efron se define como (p. 24)).
Nuevamente, ¿esto significa que minimiza ?
Allen, David M. La relación entre la selección de variables y la agregación de datos y un método para la predicción. Technometrics, vol. 16, N ° 1 (febrero de 1974), págs. 125-127
Craven, Peter y Wahba, Grace. Suavizar datos ruidosos con funciones de spline. Numerische Mathematik 31, (1979), págs. 377-403
Efron, Bradley. ¿Qué tan sesgada es la tasa de error aparente de una regresión logística? Informe técnico no. 232. Departamento de Estadística, Universidad de Stanford (abril de 1985)
Golub, Gene H., Heath y Grace Wahba. Validación cruzada generalizada como método para elegir un buen parámetro de cresta. Technometrics, vol. 21, núm. 2 (mayo de 1979), págs. 215-223
fuente
Respuestas:
Creo que los comentarios apuntan a la respuesta, pero no lo dicen sin rodeos. Entonces seré directo.
La fórmula V citada aquí es específica para la regresión lineal de crestas. No dicen que es lo mismo que PRESS, dicen que es una versión de PRESS invariante en rotación. La parte "invariante de rotación" es lo que hace que esto sea generalizado.
El artículo de Efron trata sobre la regresión logística, personalizada para ese contexto. Si desea ver la traducción matemática entre los dos contextos, el libro correcto para leer es Elementos de aprendizaje estadístico, 2ed, de Hastie, Tibshirani y Freedman. Ofrecen ese libro gratis, en línea: https://web.stanford.edu/~hastie/Papers/ESLII.pdf . Otra lectura útil sobre GCV es Modelos aditivos generalizados de Simon Wood. Su tratamiento integra GCV en general con aplicaciones en regresión y regresión logística.
Si observa el libro de ESL, p. 244, verá básicamente la misma simbología. Se refieren a ese producto de matriz grande que tiene como la matriz más suave (yo diría que es una matriz Hat, o un primo cercano). Describen el Smoother como el mapeo de aS y Yy^
Ofrecen una fórmula para la aproximación de GCV:
Este comportamiento es bastante similar al AIC en muchos modelos. La es el número efectivo de parámetros.traceS
El pieza que usted cita es más generalmente un rastro de . Por lo que puedo entender, en el resumen GCV es una versión aproximada de la validación cruzada de dejar uno fuera, pero en algunos casos, (creo que la regresión de cresta), es exacta. Ese es un punto principal en el documento de Golub.nλ S
Buena suerte, vuelve a escribir si aprendes más.
fuente