He estado utilizando la validación cruzada repetida de k veces y he estado informando la media (de la métrica de evaluación, por ejemplo, sensibilidad, especificidad) calculada como la gran media en los pliegues de diferentes corridas de la validación cruzada.
Sin embargo, no estoy seguro de cómo debo informar la variación. He encontrado muchas preguntas aquí discutiendo la validación cruzada repetida, sin embargo, ninguna de las que conozco responde explícitamente a la pregunta de varianza en las pruebas de validación cruzada repetidas.
Entiendo que la varianza total se debe a: 1) inestabilidad del modelo y 2) tamaño de muestra limitado.
Parece que hay 4 enfoques diferentes para calcular la varianza para la validación cruzada repetida de k-pliegues:
1) ¿la varianza de la métrica de rendimiento promedio estimada (p. Ej., Precisión) entre las corridas de la validación cruzada es una estimación válida de la varianza?
2) la varianza agrupada al agrupar las variaciones específicas de la ejecución (que se calculan en diferentes pliegues de una prueba de prueba de validación cruzada).
3) para concatenar los resultados de clasificación de diferentes pliegues de una ejecución de validación cruzada en un vector grande. Por ejemplo, si el número de datos de prueba en cada pliegue es 10 y tengo un CV de 10 veces, el vector resultante para una repetición será del tamaño 100. Ahora, si repito mi prueba de validación cruzada 10 veces, lo haré tienen 10 vectores de tamaño 100, cada uno de los cuales contiene los resultados de la clasificación de una ejecución CV de 10 veces. Ahora, calcularía la media y la varianza como el caso de CV de una sola ejecución.
4) También he leído (ecuaciones 2 y 3 en 1 ) que la varianza es la suma de la varianza externa y la varianza interna esperada. Si entiendo correctamente, la varianza externa es la varianza de los rendimientos promedio específicos de repetición, y la varianza interna es la varianza a través de diferentes pliegues de una serie de validación cruzada.
Agradecería mucho su ayuda y orientación sobre qué variación sería la adecuada para informar para la prueba de validación cruzada repetida.
Gracias,
fuente
Respuestas:
1 y 3 me parecen inválidos ya que no tienen en cuenta las dependencias entre ejecuciones repetidas. En otras palabras, las ejecuciones repetidas de k-fold son más similares entre sí que las repeticiones reales del experimento con datos independientes.
2 no tiene en cuenta las dependencias entre pliegues dentro de la misma ejecución.
No sé sobre 4.
Una referencia potencialmente relevante (y desalentadora) es Bengio & Grandvalet, 2004, "No hay un estimador imparcial de la varianza de la validación cruzada K-Fold"
fuente