Leí una y otra vez que la validación cruzada "Leave-one-out" tiene una gran variación debido a la gran superposición de los pliegues de entrenamiento. Sin embargo, no entiendo por qué es así: ¿no debería ser el rendimiento de la validación cruzada muy estable (baja variación) exactamente porque los conjuntos de entrenamiento son casi idénticos? ¿O estoy entendiendo mal el concepto de "varianza" por completo?
Tampoco entiendo completamente cómo LOO puede ser imparcial, pero tener una gran variación. Si la estimación de LOO es igual al valor real del estimador en la expectativa, ¿cómo puede tener una varianza alta?
Nota: Sé que aquí hay una pregunta similar: ¿por qué la varianza de validación cruzada de dejar-fuera-fuera (LOOCV) acerca de la estimación media del error es alta? Sin embargo, la persona que ha respondido dice más adelante en los comentarios que, a pesar de los votos positivos, se ha dado cuenta de que su respuesta es incorrecta.
fuente
Respuestas:
Es probable que esta pregunta termine cerrándose como un duplicado de la varianza y el sesgo en la validación cruzada: ¿por qué el CV de omisión tiene una mayor varianza? , pero antes de que suceda, creo que convertiré mis comentarios en una respuesta.
Considere un ejemplo simple. Deje que el verdadero valor de un parámetro sea . Un estimador que rinde 0,49 , 0,51 , 0,49 , 0,51 ... es imparcial y tiene una varianza relativamente baja, pero un estimador que produce 0,1 , 0,9 , 0,1 , 0,9 ... también es imparcial pero tiene una varianza mucho mayor.0.5 0.49 , 0.51 , 0.49 ,0.51... 0.1 , 0.9 , 0.1 , 0.9 ...
Debe pensar en la variación entre las diferentes realizaciones de todo el conjunto de datos. Para un conjunto de datos dado, la validación cruzada de dejar uno fuera producirá modelos muy similares para cada división porque los conjuntos de entrenamiento se cruzan mucho (como notó correctamente), pero estos modelos pueden estar muy lejos del modelo verdadero; a través de conjuntos de datos, estarán muy lejos en diferentes direcciones, por lo tanto, una gran variación.
Al menos así es como lo entiendo. Consulte los hilos vinculados para más discusión y los documentos de referencia para aún más discusión.
fuente
for one particular dataset we can expect a very good estimation
. Supongo que se puede interpretar que significa que la estimación de algunos parámetros específicos del conjunto de datos será buena. Pero en general, se supone que la validación cruzada estima un parámetro de población : qué tan bien un cierto tipo de modelo puede hacer predicciones sobre la variable dependiente en la población; y podemos no esperar una muy buena estimación de la misma por LOOCV, a causa de lo que ha escrito (la estimación esvery specific for this particular dataset
).Esta gran variación es con respecto al espacio de los conjuntos de entrenamiento. Aquí es por qué el LOOCV tiene una alta varianza: en LOOCV, obtenemos un error de predicción para cada observación, digamos observación i, usando todo el conjunto de datos observados a mano, excepto esta observación. Entonces, el valor predicho para i depende mucho del conjunto de datos actual. Ahora suponga que observamos otro conjunto de datos independiente y ajustamos un modelo en este nuevo conjunto de datos. Si usamos este nuevo modelo para obtener un valor predicho para la observación i, el valor predicho es potencialmente muy diferente del evaluado por LOOCV (aunque correcto en promedio (imparcial)).
Esta es la intuición detrás de la alta varianza de la predicción de errores en LOOCV.
Sin embargo, si está usando LOOCV para comparar los resultados de un modelo con diferentes hiperparámetros, creo que puede usar LOOCV de manera segura para estimar los errores de predicción, siempre que el verdadero valor del error de predicción no sea de su interés, es decir, solo desea compara diferentes modelos con el conjunto de entrenamiento observado y no te importa el verdadero error real que se estimará.
Dicho esto, como regla general, si tiene una muestra pequeña, use LOOCV; de lo contrario, use k-fold CV con un valor menor para k.
fuente