En la teoría del aprendizaje estadístico, ¿no hay un problema de sobreajuste en un conjunto de prueba?

16

Consideremos el problema de clasificar el conjunto de datos MNIST.

Según la página web MNIST de Yann LeCun , 'Ciresan et al.' obtuvo una tasa de error del 0.23% en el conjunto de prueba MNIST usando la red neuronal convolucional.

Denotemos el conjunto de entrenamiento MNIST como Dtrain , el conjunto de prueba MNIST como Dtest , la hipótesis final que obtuvieron usando Dtrain como h1 , y su tasa de error en el conjunto de prueba MNIST usando h1 como Etest(h1)=0.0023 .

Desde su punto de vista, dado que Dtest es un conjunto de pruebas muestreado aleatoriamente desde el espacio de entrada independientemente de h1 , pueden insistir en que el rendimiento de error fuera de la muestra de su hipótesis final Eout(h1) se limite de la siguiente manera de la desigualdad P de Hoeffding [ | E o u t ( h 1 ) - E t e s t ( h 1 ) | < ϵ | ] donde N t e s t = | D t e s t | .

P[|Eout(h1)Etest(h1)|<ϵ|]12e2ϵ2Ntest

Ntest=|Dtest|

En otras palabras, al menos probabilidad , E o u t ( h 1 ) E t e s t ( h 1 ) + 1δ

Eout(h1)Etest(h1)+12Ntestln2δ

Consideremos otro punto de vista. Supongamos que alguna persona quiere clasificar bien el conjunto de pruebas MNIST. Así que primero miró la página web MNIST de Yann LeCun , y encontró los siguientes resultados obtenidos por otras personas usando 8 modelos diferentes,

MNIST classification results

y eligió su modelo que mejor se desempeñó en el conjunto de pruebas MNIST entre 8 modelos.g

Para él, el proceso de aprendizaje consistía en elegir una hipótesis que funcionara mejor en el conjunto de pruebas D t e s t de un conjunto de hipótesis H t r a i n egDtest.Htrained={h1,h2,..,h8}

Por lo tanto, el error en el conjunto de prueba es un error 'en muestra' para este proceso de aprendizaje, por lo que puede aplicar el límite de VC para conjuntos de hipótesis finitas como la siguiente desigualdad. P [ | E o u t ( g ) - E i n ( g ) | < ϵ ] 1 - 2 | H t r a i n e d | e 2 ϵ 2 NEtest(g)

P[|Eout(g)Ein(g)|<ϵ]12|Htrained|e2ϵ2Ntest

En otras palabras, al menos probabilidad , E o u t1δ

Eout(g)Etest(g)+12Ntestln2|Htrained|δ

Este resultado implica que podría haber un sobreajuste en el conjunto de prueba si seleccionamos el modelo que funciona mejor entre varios modelos.

h1Etest(h1)=0.0023h1Dtesth1

Eout(h1)Etest(h1)+12Ntestln2|Htrained|δ

P[Eout(h1)Etest(h1)+12Ntestln2δ]1δ
P[Eout(h1)Etest(h1)+12Ntestln2|Htrained|δ]1δ

Sin embargo, es obvio que estas dos desigualdades son incompatibles.

¿Dónde estoy haciendo mal? ¿Cuál está bien y cuál está mal?

Si esto último es incorrecto, ¿cuál es la forma correcta de aplicar el límite de VC para conjuntos de hipótesis finitas en este caso?

asqdf
fuente

Respuestas:

1

Entre esas dos desigualdades, creo que la última está mal. En resumen, lo que está mal aquí es la identidadsol=h1 Dado que sol es una función de los datos de prueba mientras h1 es un modelo que es independiente de los datos de prueba.

De hecho, sol es uno de los 8 modelos en Htrunyonortemire={h1,h2,...,h8} que mejor predice el conjunto de pruebas retmist.

Por lo tanto, sol es una función de retmist. Para un conjunto de prueba específico,retmist (como el que mencionaste), podría suceder que sol(retmist)=h1, pero en general, dependiendo del conjunto de prueba, sol(retmist) podría tomar cualquier valor en Htrunyonortemire. Por otra parteh1 es solo un valor en Htrunyonortemire.

Para la otra pregunta:

Si esto último es incorrecto, ¿cuál es la forma correcta de aplicar el límite de VC para conjuntos de hipótesis finitas en este caso?

Simplemente no reemplace sol por h1, obtendrá el límite correcto (para sol, por supuesto) y no tendrá conflicto con el otro límite (que es para h1)

Tĩnh Trần
fuente