El significado del error de prueba condicional frente al error de prueba esperado en la validación cruzada

9

Mi libro de texto sobre validación cruzada es Los elementos del aprendizaje estadístico de Hastie et al. (2da ed.). En las secciones 7.10.1 y 7.12, hablan sobre la diferencia entre el error de prueba condicional y la prueba esperada error Aquí es el conjunto de datos de entrenamiento, es la función de pérdida, es el modelo entrenado en . E es la expectativa.

mi(X,Y)[L(Y,F^(X))El |τ]
miτ[mi(X,Y)[L(Y,F^(X))El |τ]].
τLF^τmi

Explicaron que CV solo estima bien el error de prueba esperado.

Mi pregunta es, ¿hay alguna razón por la que nos importaría el error de prueba condicional?

La única razón por la que se me ocurre es que queremos responder la pregunta 'Si Dios pone norte conjuntos de datos sobre la mesa, pero solo nos permite llevar 1 a casa para que se ajuste a nuestro modelo, ¿cuál deberíamos elegir?'

qoheleth
fuente

Respuestas:

5

Creo que puede estar malentendiendo el error de prueba condicional. Esto puede deberse a que Hastie, Friedman y Tibshirani (HFT) no son consistentes en su terminología, a veces llamando a esta misma noción "error de prueba", "error de generalización", "error de predicción en un conjunto de prueba independiente", "error condicional verdadero" o "error de prueba real".

Independientemente del nombre, es el error promedio en el que incurriría el modelo que ajustó en un conjunto de entrenamiento particular cuando se aplica a ejemplos extraídos de la distribución de pares (X, Y). Si pierde dinero cada vez que el modelo ajustado comete un error (o proporcional al error si habla de regresión), es la cantidad promedio de dinero que pierde cada vez que usa el clasificador. Podría decirse que es lo más natural que debe preocuparse por un modelo que haya ajustado a un conjunto de entrenamiento en particular.τ

Una vez que se asimila, la verdadera pregunta es por qué uno debería preocuparse por el error de prueba esperado. (HFT también llama a esto "error de predicción esperado"). Después de todo, es un promedio sobre todo tipo de conjuntos de entrenamiento que normalmente nunca vas a usar. (Parece, por cierto, que HFT pretende un promedio sobre conjuntos de entrenamiento de un tamaño particular para definir el error de prueba esperado, pero nunca lo dicen explícitamente).

La razón es que el error de prueba esperado es una característica más fundamental de un algoritmo de aprendizaje, ya que promedia los caprichos de si tuvo suerte o no con su conjunto de entrenamiento particular.

Como mencionó, HFT muestra que el CV estima el error de prueba esperado mejor que el error de prueba condicional estimado. Esto es afortunado si está comparando algoritmos de aprendizaje automático, pero desafortunado si desea saber qué tan bien funcionará el modelo particular que se ajuste a un conjunto de entrenamiento en particular.

DavidDLewis
fuente
+1. ¿Entiende por qué el CV, en particular el CV de omisión (LOOCV), estima el error de prueba esperado y no el error de prueba condicional (en )? Hastie y col. simplemente afirme que este es el caso en la Sección 7.12 basado en alguna simulación que hicieron (que no se presenta muy claramente), pero no ofrezca ninguna explicación de por qué debería ser así. Estoy confundido por esta sección. LOOCV me parece la forma más directa posible de estimar el error condicional . τ
ameba
1
Intuitivamente, tiene sentido para mí que el CV no sea tan bueno para el error de prueba condicional porque todo el procedimiento se basa en cambiar sus datos de entrenamiento. (Para la mejor estimación del error de prueba condicional, necesita un conjunto de pruebas separado). Pero es justo preguntarse por qué los pequeños cambios en el conjunto de capacitación involucrados en LOOCV en particular son suficientes para esto.
Kodiólogo
@amoeba dijiste algo que me llamó la atención. LOOCV parece ser una forma más directa de estimar el error condicional en comparación con decir 10 veces el CV. Pero, de hecho, la página 255 del libro HTF, del ejercicio de simulación, muestra que 10 veces el CV es una mejor manera de estimar el error condicional. Creo que esto todavía me preocupa también
Chamberlain Foncha
0

Estoy pensando en el mismo pasaje y también me pregunto cuándo estaría interesado en el error de prueba condicional. Además, por lo que puedo entender, deberían ser los mismos de forma asintótica: para conjuntos de entrenamiento y pruebas muy grandes, la división precisa del conjunto de entrenamiento / prueba ya no debería dar como resultado estimaciones de error de prueba condicional diferentes. Como puede ver en Hastie et al. reserve sus ejemplos en condicional: las diferencias esperadas siempre se basan en un número relativamente pequeño de observaciones, que si entiendo esto correctamente es la razón por la cual los errores de prueba condicionales y esperados se ven diferentes en los gráficos.

El libro menciona que el error de prueba esperado promedia sobre la aleatoriedad en el conjunto de entrenamiento, mientras que el error de prueba (condicional) no. Ahora, ¿cuándo querría tener en cuenta la incertidumbre asociada con qué partición particular de entrenamiento / conjunto de pruebas tengo en cuenta? Mi respuesta sería que, por lo general, nunca me interesa dar cabida a este tipo de incertidumbre, ya que esto no es lo que me interesa cuando evalúo un modelo: al evaluar la calidad predictiva de un modelo, quiero saber cómo funciona. iría en, digamos, pronosticando el clima mañana. El clima de mañana está relacionado con mis datos generales más o menos como mis datos de prueba están relacionados con mis datos de entrenamiento, por lo que calculo un error de prueba condicional para evaluar mi modelo. Sin embargo, el clima de mañana está relacionado con mis datos generales, no como un conjunto de pruebas específico está relacionado con el conjunto de entrenamiento específico correspondiente, sino cómo el conjunto de prueba promedio está relacionado con el conjunto de entrenamiento promedio. Entonces obtengo la siguiente partición de entrenamiento / conjunto de pruebas y obtengo otro error de prueba condicional. Hago esto muchas veces (como, por ejemplo, en la validación cruzada K-fold), la variación en los errores de prueba condicionales individuales se promedia, y me queda el error de prueba esperado; que, de nuevo, es todo lo que puedo pensar en querer obtener. en validación cruzada K-fold) - la variación en los errores de prueba condicionales individuales promedia - y me queda el error de prueba esperado; que, de nuevo, es todo lo que puedo pensar en querer obtener. en validación cruzada K-fold) - la variación en los errores de prueba condicionales individuales promedia - y me queda el error de prueba esperado; que, de nuevo, es todo lo que puedo pensar en querer obtener.

Dicho de otra manera, en los gráficos de error de prueba / error de prueba esperado en Hastie et al., Tenemos una idea de la eficiencia del estimador del modelo: si los errores de prueba condicionales están ampliamente dispersos alrededor del error de prueba esperado, esto es una indicación del estimador ser ineficiente, mientras que una menor variación en los errores de prueba condicionales indicaría un estimador más eficiente, dada la cantidad de observaciones.

En pocas palabras: podría estar equivocado aquí, y me alegraría que me corrijan al respecto, pero como lo veo en este momento, el concepto del error de prueba condicional es un intento dudoso de evaluar la validez del modelo externo al permitirse solo un entrenamiento / prueba de partición disparo. Para muestras grandes, este disparo único debería ser equivalente a los errores de prueba conditinales promediados en muchos disparos de entrenamiento / partición de prueba, es decir, el error de prueba esperado. Para muestras pequeñas donde ocurre una diferencia, la medida real de interés me parece la esperada, y no el error de prueba condicional.

usuario52821
fuente