Mi libro de texto sobre validación cruzada es Los elementos del aprendizaje estadístico de Hastie et al. (2da ed.). En las secciones 7.10.1 y 7.12, hablan sobre la diferencia entre el error de prueba condicional y la prueba esperada error Aquí es el conjunto de datos de entrenamiento, es la función de pérdida, es el modelo entrenado en . E es la expectativa.
Explicaron que CV solo estima bien el error de prueba esperado.
Mi pregunta es, ¿hay alguna razón por la que nos importaría el error de prueba condicional?
La única razón por la que se me ocurre es que queremos responder la pregunta 'Si Dios pone conjuntos de datos sobre la mesa, pero solo nos permite llevar 1 a casa para que se ajuste a nuestro modelo, ¿cuál deberíamos elegir?'
fuente
Estoy pensando en el mismo pasaje y también me pregunto cuándo estaría interesado en el error de prueba condicional. Además, por lo que puedo entender, deberían ser los mismos de forma asintótica: para conjuntos de entrenamiento y pruebas muy grandes, la división precisa del conjunto de entrenamiento / prueba ya no debería dar como resultado estimaciones de error de prueba condicional diferentes. Como puede ver en Hastie et al. reserve sus ejemplos en condicional: las diferencias esperadas siempre se basan en un número relativamente pequeño de observaciones, que si entiendo esto correctamente es la razón por la cual los errores de prueba condicionales y esperados se ven diferentes en los gráficos.
El libro menciona que el error de prueba esperado promedia sobre la aleatoriedad en el conjunto de entrenamiento, mientras que el error de prueba (condicional) no. Ahora, ¿cuándo querría tener en cuenta la incertidumbre asociada con qué partición particular de entrenamiento / conjunto de pruebas tengo en cuenta? Mi respuesta sería que, por lo general, nunca me interesa dar cabida a este tipo de incertidumbre, ya que esto no es lo que me interesa cuando evalúo un modelo: al evaluar la calidad predictiva de un modelo, quiero saber cómo funciona. iría en, digamos, pronosticando el clima mañana. El clima de mañana está relacionado con mis datos generales más o menos como mis datos de prueba están relacionados con mis datos de entrenamiento, por lo que calculo un error de prueba condicional para evaluar mi modelo. Sin embargo, el clima de mañana está relacionado con mis datos generales, no como un conjunto de pruebas específico está relacionado con el conjunto de entrenamiento específico correspondiente, sino cómo el conjunto de prueba promedio está relacionado con el conjunto de entrenamiento promedio. Entonces obtengo la siguiente partición de entrenamiento / conjunto de pruebas y obtengo otro error de prueba condicional. Hago esto muchas veces (como, por ejemplo, en la validación cruzada K-fold), la variación en los errores de prueba condicionales individuales se promedia, y me queda el error de prueba esperado; que, de nuevo, es todo lo que puedo pensar en querer obtener. en validación cruzada K-fold) - la variación en los errores de prueba condicionales individuales promedia - y me queda el error de prueba esperado; que, de nuevo, es todo lo que puedo pensar en querer obtener. en validación cruzada K-fold) - la variación en los errores de prueba condicionales individuales promedia - y me queda el error de prueba esperado; que, de nuevo, es todo lo que puedo pensar en querer obtener.
Dicho de otra manera, en los gráficos de error de prueba / error de prueba esperado en Hastie et al., Tenemos una idea de la eficiencia del estimador del modelo: si los errores de prueba condicionales están ampliamente dispersos alrededor del error de prueba esperado, esto es una indicación del estimador ser ineficiente, mientras que una menor variación en los errores de prueba condicionales indicaría un estimador más eficiente, dada la cantidad de observaciones.
En pocas palabras: podría estar equivocado aquí, y me alegraría que me corrijan al respecto, pero como lo veo en este momento, el concepto del error de prueba condicional es un intento dudoso de evaluar la validez del modelo externo al permitirse solo un entrenamiento / prueba de partición disparo. Para muestras grandes, este disparo único debería ser equivalente a los errores de prueba conditinales promediados en muchos disparos de entrenamiento / partición de prueba, es decir, el error de prueba esperado. Para muestras pequeñas donde ocurre una diferencia, la medida real de interés me parece la esperada, y no el error de prueba condicional.
fuente