Alta variación de validación cruzada de dejar uno fuera

15

Leí una y otra vez que la validación cruzada "Leave-one-out" tiene una gran variación debido a la gran superposición de los pliegues de entrenamiento. Sin embargo, no entiendo por qué es así: ¿no debería ser el rendimiento de la validación cruzada muy estable (baja variación) exactamente porque los conjuntos de entrenamiento son casi idénticos? ¿O estoy entendiendo mal el concepto de "varianza" por completo?

Tampoco entiendo completamente cómo LOO puede ser imparcial, pero tener una gran variación. Si la estimación de LOO es igual al valor real del estimador en la expectativa, ¿cómo puede tener una varianza alta?

Nota: Sé que aquí hay una pregunta similar: ¿por qué la varianza de validación cruzada de dejar-fuera-fuera (LOOCV) acerca de la estimación media del error es alta? Sin embargo, la persona que ha respondido dice más adelante en los comentarios que, a pesar de los votos positivos, se ha dado cuenta de que su respuesta es incorrecta.

Pegah
fuente
2
Soy esa persona :-) pero tenga en cuenta que, en primer lugar, hace un tiempo actualicé mi respuesta para eliminar la confusión y, en segundo lugar, todo el hilo se cierra como un duplicado de otro hilo: stats.stackexchange.com/ preguntas / 61783 . ¿Miraste allí? Tu Q me parece ser un duplicado de esa también. Si no está satisfecho con la respuesta dada allí, considere formular su pregunta más específicamente. En este momento votaré para cerrar, pero siéntase libre de editar su Q.
ameba dice Reinstate Monica
3
Bueno, eso es fácil: deje que el verdadero valor de un parámetro sea . Un estimador que rinde 0.49 , 0.51 , 0.49 , 0.51 ... es imparcial y tiene una varianza relativamente baja, pero un estimador que rinde 0.1 , 0.9 , 0.1 , 0.9 ... también es imparcial pero tiene una varianza mucho mayor. 0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...
ameba dice Reinstate Monica
55
Con respecto a su primer párrafo: debe pensar en la variación entre las diferentes realizaciones de todo el conjunto de datos . Para un conjunto de datos dado, LOOCV producirá modelos muy similares para cada división porque los conjuntos de entrenamiento se cruzan mucho (como dijiste), pero estos modelos pueden estar muy lejos del modelo verdadero ; a través de conjuntos de datos, estarán muy lejos en diferentes direcciones, por lo tanto, una gran variación. Así es como lo entiendo cualitativamente.
ameba dice Reinstate Monica
2
@amoeba, ¿por qué no convertir esos comentarios en una respuesta oficial?
gung - Restablece a Monica

Respuestas:

10

Es probable que esta pregunta termine cerrándose como un duplicado de la varianza y el sesgo en la validación cruzada: ¿por qué el CV de omisión tiene una mayor varianza? , pero antes de que suceda, creo que convertiré mis comentarios en una respuesta.

Tampoco entiendo completamente cómo LOO puede ser imparcial, pero tener una gran variación.

Considere un ejemplo simple. Deje que el verdadero valor de un parámetro sea . Un estimador que rinde 0,49 , 0,51 , 0,49 , 0,51 ... es imparcial y tiene una varianza relativamente baja, pero un estimador que produce 0,1 , 0,9 , 0,1 , 0,9 ... también es imparcial pero tiene una varianza mucho mayor.0.5 0.50.49,0.51,0.49,0,51 ...0.1,0.9,0.1,0.9 ...

¿No debería ser muy estable el rendimiento de la validación cruzada (baja varianza) exactamente porque los conjuntos de entrenamiento son casi idénticos?

Debe pensar en la variación entre las diferentes realizaciones de todo el conjunto de datos. Para un conjunto de datos dado, la validación cruzada de dejar uno fuera producirá modelos muy similares para cada división porque los conjuntos de entrenamiento se cruzan mucho (como notó correctamente), pero estos modelos pueden estar muy lejos del modelo verdadero; a través de conjuntos de datos, estarán muy lejos en diferentes direcciones, por lo tanto, una gran variación.

Al menos así es como lo entiendo. Consulte los hilos vinculados para más discusión y los documentos de referencia para aún más discusión.

ameba dice reinstalar Monica
fuente
2
Entonces, según tengo entendido, se da un sesgo bajo porque el conjunto de entrenamiento es muy grande, casi idéntico con todo el conjunto de datos (ya que solo se deja una muestra de datos para las pruebas). Entonces, para un conjunto de datos en particular, podemos esperar una muy buena estimación. Sin embargo, debido a esta alta correlación de los pliegues (la validación cruzada casi se realiza en datos idénticos en sus iteraciones), la estimación también es muy específica para este conjunto de datos en particular, lo que resulta en una gran variación entre el rendimiento en diferentes conjuntos de datos de la misma distribución subyacente . ¿Correcto?
Pegah
2
Creo que es principalmente correcto, pero hay que tener cuidado al decir eso for one particular dataset we can expect a very good estimation. Supongo que se puede interpretar que significa que la estimación de algunos parámetros específicos del conjunto de datos será buena. Pero en general, se supone que la validación cruzada estima un parámetro de población : qué tan bien un cierto tipo de modelo puede hacer predicciones sobre la variable dependiente en la población; y podemos no esperar una muy buena estimación de la misma por LOOCV, a causa de lo que ha escrito (la estimación es very specific for this particular dataset).
ameba dice Reinstate Monica
1
Debo agregar una advertencia de que todo eso es mi comprensión actual, pero en general este tema me parece bastante complicado y mi experiencia con la validación cruzada es limitada. No soy un experto.
ameba dice Reinstate Monica
1
¿Puedo preguntar por qué lo encuentras complicado? Tengo curiosidad ya que esto podría enseñarme algo sobre dónde tener cuidado cuando se trata de CV o dónde profundizar mi conocimiento
Pegah
2
Dada la respuesta aceptada en este hilo , quizás ya no necesite mencionar la alta varianza de LOOCV en esta respuesta, es decir, ¿ por lo tanto , alta varianza ? He pensado en estas preguntas por un tiempo y no pude encontrar ninguna razón teórica para la alta varianza de LOOCV en los problemas de regresión continua ("continua"?), Aunque veo el punto de Paul en los comentarios en el hilo vinculado de que LOOCV falla si su muestra contiene duplicados de cada punto.
Richard Hardy
1

Esta gran variación es con respecto al espacio de los conjuntos de entrenamiento. Aquí es por qué el LOOCV tiene una alta varianza: en LOOCV, obtenemos un error de predicción para cada observación, digamos observación i, usando todo el conjunto de datos observados a mano, excepto esta observación. Entonces, el valor predicho para i depende mucho del conjunto de datos actual. Ahora suponga que observamos otro conjunto de datos independiente y ajustamos un modelo en este nuevo conjunto de datos. Si usamos este nuevo modelo para obtener un valor predicho para la observación i, el valor predicho es potencialmente muy diferente del evaluado por LOOCV (aunque correcto en promedio (imparcial)).

Esta es la intuición detrás de la alta varianza de la predicción de errores en LOOCV.

Sin embargo, si está usando LOOCV para comparar los resultados de un modelo con diferentes hiperparámetros, creo que puede usar LOOCV de manera segura para estimar los errores de predicción, siempre que el verdadero valor del error de predicción no sea de su interés, es decir, solo desea compara diferentes modelos con el conjunto de entrenamiento observado y no te importa el verdadero error real que se estimará.

Dicho esto, como regla general, si tiene una muestra pequeña, use LOOCV; de lo contrario, use k-fold CV con un valor menor para k.

Mehdi Rostami
fuente