¿Cuándo son aplicables los resultados de Shao en la validación cruzada de dejar uno fuera?

22

En su artículo Linear Model Selection by Cross-Validation , Jun Shao muestra que para el problema de la selección de variables en la regresión lineal multivariante, el método de validación cruzada de dejar-fuera-fuera (LOOCV) es 'asintóticamente inconsistente'. En inglés simple, tiende a seleccionar modelos con demasiadas variables. En un estudio de simulación, Shao muestra que incluso con tan solo 40 observaciones, LOOCV puede tener un rendimiento inferior a otras técnicas de validación cruzada.

Este documento es algo controvertido y algo ignorado (10 años después de su publicación, mis colegas quimiométricos nunca habían oído hablar de él y estaban felizmente usando LOOCV para la selección de variables ...). También existe la creencia (soy culpable de esto) de que sus resultados se extienden un poco más allá del alcance limitado original.

La pregunta, entonces: ¿hasta dónde se extienden estos resultados? ¿Son aplicables a los siguientes problemas?

  1. Selección de variables para regresión logística / GLM?
  2. ¿Selección variable para la clasificación Fisher LDA?
  3. ¿Selección variable usando SVM con espacio de kernel finito (o infinito)?
  4. Comparación de modelos en clasificación, digamos SVM usando diferentes núcleos?
  5. Comparación de modelos en regresión lineal, por ejemplo, ¿comparar MLR con regresión de cresta?
  6. etc.
shabbychef
fuente
Debe haber algo en los libros de quimiometría; el único hombre que conozco que usa LOO también lo está haciendo.

Respuestas:

14

Debe especificar el propósito del modelo antes de poder decir si los resultados de Shao son aplicables. Por ejemplo, si el propósito es la predicción, entonces LOOCV tiene sentido y la inconsistencia de la selección de variables no es un problema. Por otro lado, si el propósito es identificar las variables importantes y explicar cómo afectan la variable de respuesta, entonces los resultados de Shao son obviamente importantes y LOOCV no es apropiado.

El AIC es LOOCV asintóticamente y BIC es asintóticamente equivalente a un CV de salida- out donde v = n [ 1 - 1 / ( log ( n ) - 1 ) ] --- el resultado de BIC solo para modelos lineales. Entonces, el BIC ofrece una selección de modelo consistente. Por lo tanto, un resumen breve del resultado de Shao es que AIC es útil para la predicción, pero BIC es útil para la explicación.vv=n[11/(log(n)-1)]

Rob Hyndman
fuente
1
Creo que Shao demostró que k-fold CV es inconsistente si se arregla mientras n crece. kn
shabbychef
1
El BIC tiene k creciendo con n.
Rob Hyndman, el
1
Solo recordaré en silencio que * IC <--> * La correspondencia de CV del papel de Shao funciona solo para modelos lineales, y BIC es equivalente solo a CV de doble k con cierta k.
En realidad, creo que Shao muestra que el CV es inconsistente a menos que como n inf , donde n v es el número de muestras en el conjunto de prueba. Por lo tanto, k- pliegue CV siempre es inconsistente para la selección de variables. ¿He entendido mal? Por k- pliegue CV me refiero a dividir la muestra en k grupos y entrenar en k - 1 de ellos, y probar en 1 de ellos, luego repetir k veces. Entonces n v / n = 1 / k para knv/n1ninfnvkkkk1knv/n=1/kkCV doble, que nunca se acerca a 1.
shabbychef
3
@mbq: No, la prueba AIC / LOO de Stone 1977 no asume modelos lineales. Por esta razón, a diferencia del resultado de Shao, es ampliamente citado; consulte, por ejemplo, los capítulos de selección de modelo en EOSL o en el Manual de estadísticas computacionales, o realmente cualquier buen capítulo / documento sobre selección de modelo. Es solo un poco más de una página y vale la pena leerlo, ya que es algo ordenado por la forma en que evita tener que calcular la información / puntuación de Fisher para obtener el resultado.
ars
7

Este artículo es algo controvertido y algo ignorado

En realidad no, está bien considerado en lo que respecta a la teoría de la selección de modelos, aunque ciertamente se malinterpreta. El verdadero problema es cuán relevante es para la práctica del modelado en la naturaleza. Suponga que realiza las simulaciones para los casos que propone investigar y determina que LOOCV es realmente inconsistente. La única razón por la que obtendría eso es porque ya conocía el modelo "verdadero" y, por lo tanto, podría determinar que la probabilidad de recuperar el modelo "verdadero" no converge a 1. Para modelar en la naturaleza, ¿con qué frecuencia es esto verdadero? que los fenómenos se describen mediante modelos lineales y que el modelo "verdadero" es un subconjunto de los considerados)?

El artículo de Shao es ciertamente interesante para avanzar en el marco teórico. Incluso proporciona algo de claridad: si el modelo "verdadero" está realmente bajo consideración, entonces tenemos los resultados de consistencia a los que debemos prestar atención. Pero no estoy seguro de cuán interesantes serían las simulaciones reales para los casos que describa. Esto es en gran parte por qué la mayoría de los libros como EOSL no se centran tanto en el resultado de Shao, sino en el error de predicción / generalización como criterio para la selección del modelo.

EDITAR: La respuesta muy breve a su pregunta es: los resultados de Shao son aplicables cuando realiza la estimación de mínimos cuadrados, la función de pérdida cuadrática. No más ancho. (Creo que hubo un artículo interesante de Yang (2005?) Que investigó si se podía tener consistencia y eficiencia, con una respuesta negativa).

ars
fuente
No creo que sea relevante si conozco el verdadero modelo en la naturaleza. Si hay un modelo 'verdadero', preferiría un método que sea más probable que lo encuentre.
shabbychef
2
@shabbychef: no estoy en desacuerdo. Pero tenga en cuenta: "Si hay un modelo 'verdadero'" y está bajo consideración ... ¿cómo podría saberlo a priori?
ars
1
Tenga en cuenta también que mi segundo párrafo realmente hace el punto en su comentario. Esta es una buena propiedad, pero no está claro qué tan aplicable es en la naturaleza; A pesar de que es reconfortante en algún sentido, puede estar equivocado.
ars
2
@ars: tenga en cuenta que la "linealidad" del modelo 'verdadero' no es la única forma de recuperar el modelo 'verdadero' de un modelo lineal. Si el componente no lineal del modelo 'verdadero' puede ser bien modelado por el término de ruido (por ejemplo, los efectos no lineales tienden a cancelarse entre sí), creo que razonablemente podríamos llamar al modelo lineal 'verdadero'. Esto es similar a asumir que el resto en una serie de taylor lineal es insignificante.
chanceislogic
1
v
6



10/ /101


fuente
Más allá de las pruebas, me pregunto si ha habido estudios de simulación de alguno de los cinco casos que enumero, por ejemplo.
shabbychef
¿Quieres hacer un poco?
2
Hago; Sin embargo, voy a tener que aprender mucho más R para compartir los resultados aquí.
shabbychef
1
@shabbychef: ¿alguna vez has hecho esto? Y, por cierto, si todavía está contando a los quimiometristas que usan o no usan CV para la selección de variables, puede contarme del lado de aquellos que se niegan a hacerlo, porque a) todavía no he tenido datos reales configurado con suficientes casos (muestras) para permitir incluso una comparación de un solo modelo, yb) para mis datos espectroscópicos, la información relevante generalmente está "untada" en grandes partes del espectro, por lo que prefiero la regularización que no haga una selección variable difícil.
cbeleites apoya a Monica el
1

1) La respuesta de @ars menciona a Yang (2005), "¿Se pueden compartir las fortalezas de AIC y BIC?" . Hablando en términos generales, parece que no puede tener un criterio de selección de modelo que logre tanto la consistencia (tender a elegir el modelo correcto, si es que hay un modelo correcto y se encuentra entre los modelos que se están considerando) como la eficiencia (lograr la media más baja error al cuadrado en promedio entre los modelos que elegiste). Si tiende a elegir el modelo correcto en promedio, a veces obtendrá modelos un poco demasiado pequeños ... pero al omitir a menudo un predictor real, lo hace peor en términos de MSE que alguien que siempre incluye algunos predictores espurios.

Entonces, como se dijo antes, si le importa hacer buenas predicciones más que obtener exactamente las variables correctas, está bien seguir usando LOOCV o AIC.

2) Pero también quería señalar otros dos de sus documentos: Yang (2006) "Comparación de métodos de aprendizaje para la clasificación" y Yang (2007) "Consistencia de la validación cruzada para comparar procedimientos de regresión" . Estos documentos muestran que no necesita la proporción de datos de entrenamiento a prueba para reducirse a 0 si está comparando modelos que convergen a tasas más lentas que los modelos lineales.

Entonces, para responder a sus preguntas originales 1-6 más directamente: los resultados de Shao se aplican al comparar modelos lineales entre sí. Ya sea para la regresión o la clasificación, si está comparando modelos no paramétricos que convergen a un ritmo más lento (o incluso comparando un modelo lineal con un modelo no paramétrico), puede usar la mayoría de los datos para el entrenamiento y aún tener un CV consistente con la selección de modelos. .. pero aún así, Yang sugiere que LOOCV es demasiado extremo.

civilstat
fuente