En su artículo Linear Model Selection by Cross-Validation , Jun Shao muestra que para el problema de la selección de variables en la regresión lineal multivariante, el método de validación cruzada de dejar-fuera-fuera (LOOCV) es 'asintóticamente inconsistente'. En inglés simple, tiende a seleccionar modelos con demasiadas variables. En un estudio de simulación, Shao muestra que incluso con tan solo 40 observaciones, LOOCV puede tener un rendimiento inferior a otras técnicas de validación cruzada.
Este documento es algo controvertido y algo ignorado (10 años después de su publicación, mis colegas quimiométricos nunca habían oído hablar de él y estaban felizmente usando LOOCV para la selección de variables ...). También existe la creencia (soy culpable de esto) de que sus resultados se extienden un poco más allá del alcance limitado original.
La pregunta, entonces: ¿hasta dónde se extienden estos resultados? ¿Son aplicables a los siguientes problemas?
- Selección de variables para regresión logística / GLM?
- ¿Selección variable para la clasificación Fisher LDA?
- ¿Selección variable usando SVM con espacio de kernel finito (o infinito)?
- Comparación de modelos en clasificación, digamos SVM usando diferentes núcleos?
- Comparación de modelos en regresión lineal, por ejemplo, ¿comparar MLR con regresión de cresta?
- etc.
fuente
Respuestas:
Debe especificar el propósito del modelo antes de poder decir si los resultados de Shao son aplicables. Por ejemplo, si el propósito es la predicción, entonces LOOCV tiene sentido y la inconsistencia de la selección de variables no es un problema. Por otro lado, si el propósito es identificar las variables importantes y explicar cómo afectan la variable de respuesta, entonces los resultados de Shao son obviamente importantes y LOOCV no es apropiado.
El AIC es LOOCV asintóticamente y BIC es asintóticamente equivalente a un CV de salida- out donde v = n [ 1 - 1 / ( log ( n ) - 1 ) ] --- el resultado de BIC solo para modelos lineales. Entonces, el BIC ofrece una selección de modelo consistente. Por lo tanto, un resumen breve del resultado de Shao es que AIC es útil para la predicción, pero BIC es útil para la explicación.v v=n[1−1/(log(n)−1)]
fuente
En realidad no, está bien considerado en lo que respecta a la teoría de la selección de modelos, aunque ciertamente se malinterpreta. El verdadero problema es cuán relevante es para la práctica del modelado en la naturaleza. Suponga que realiza las simulaciones para los casos que propone investigar y determina que LOOCV es realmente inconsistente. La única razón por la que obtendría eso es porque ya conocía el modelo "verdadero" y, por lo tanto, podría determinar que la probabilidad de recuperar el modelo "verdadero" no converge a 1. Para modelar en la naturaleza, ¿con qué frecuencia es esto verdadero? que los fenómenos se describen mediante modelos lineales y que el modelo "verdadero" es un subconjunto de los considerados)?
El artículo de Shao es ciertamente interesante para avanzar en el marco teórico. Incluso proporciona algo de claridad: si el modelo "verdadero" está realmente bajo consideración, entonces tenemos los resultados de consistencia a los que debemos prestar atención. Pero no estoy seguro de cuán interesantes serían las simulaciones reales para los casos que describa. Esto es en gran parte por qué la mayoría de los libros como EOSL no se centran tanto en el resultado de Shao, sino en el error de predicción / generalización como criterio para la selección del modelo.
EDITAR: La respuesta muy breve a su pregunta es: los resultados de Shao son aplicables cuando realiza la estimación de mínimos cuadrados, la función de pérdida cuadrática. No más ancho. (Creo que hubo un artículo interesante de Yang (2005?) Que investigó si se podía tener consistencia y eficiencia, con una respuesta negativa).
fuente
fuente
1) La respuesta de @ars menciona a Yang (2005), "¿Se pueden compartir las fortalezas de AIC y BIC?" . Hablando en términos generales, parece que no puede tener un criterio de selección de modelo que logre tanto la consistencia (tender a elegir el modelo correcto, si es que hay un modelo correcto y se encuentra entre los modelos que se están considerando) como la eficiencia (lograr la media más baja error al cuadrado en promedio entre los modelos que elegiste). Si tiende a elegir el modelo correcto en promedio, a veces obtendrá modelos un poco demasiado pequeños ... pero al omitir a menudo un predictor real, lo hace peor en términos de MSE que alguien que siempre incluye algunos predictores espurios.
Entonces, como se dijo antes, si le importa hacer buenas predicciones más que obtener exactamente las variables correctas, está bien seguir usando LOOCV o AIC.
2) Pero también quería señalar otros dos de sus documentos: Yang (2006) "Comparación de métodos de aprendizaje para la clasificación" y Yang (2007) "Consistencia de la validación cruzada para comparar procedimientos de regresión" . Estos documentos muestran que no necesita la proporción de datos de entrenamiento a prueba para reducirse a 0 si está comparando modelos que convergen a tasas más lentas que los modelos lineales.
Entonces, para responder a sus preguntas originales 1-6 más directamente: los resultados de Shao se aplican al comparar modelos lineales entre sí. Ya sea para la regresión o la clasificación, si está comparando modelos no paramétricos que convergen a un ritmo más lento (o incluso comparando un modelo lineal con un modelo no paramétrico), puede usar la mayoría de los datos para el entrenamiento y aún tener un CV consistente con la selección de modelos. .. pero aún así, Yang sugiere que LOOCV es demasiado extremo.
fuente