Consistencia del proceso de aprendizaje.

9

Tengo dos preguntas relacionadas con el concepto de "consistencia de aprendizaje" para aquellos que están familiarizados con la teoría del aprendizaje estadístico a la Vapnik.

Pregunta 1.
El proceso de aprendizaje se llama consistente (para la clase de funcionesF y distribución de probabilidad P) Si

Remp(fl)PinffFR(f),l
y
R(fl)PinffFR(f),l

Estas dos condiciones son independientes. En P. 83 de la "Teoría del aprendizaje estadístico" de Vapnik hay un ejemplo de un conjunto de clasificadores tal manera que la segunda convergencia tiene lugar pero la primera no. Estaba pensando en un ejemplo de un conjunto de clasificadores de manera que la primera convergencia tenga lugar pero la segunda no, y no se me ocurrió nada. ¿Me puede ayudar alguien?F

Pregunta 2.
El proceso de aprendizaje se llama no trivialmente consistente (o estrictamente consistente) (para la clase de funciones y distribución de probabilidad ) si para cualquier número real tal que establezca no está vacío, tenemos:FPcRΛ(c)={f|R(f)c}

infflΛ(c)Remp(fl)=Remp(fl)PinffΛ(c)R(f),l

La página 81 de la "Teoría del aprendizaje estadístico" de Vapnik proporciona una ilustración de por qué queremos considerar la consistencia estricta en lugar de la consistencia definida en la Pregunta 1, es decir, por qué queremos presentar y considerar para cualquier . Todos los demás textos que consideran la consistencia estricta esencialmente duplican la ilustración de Vapnik cuando quieren explicar la razón detrás del concepto de consistencia estricta. Sin embargo, no estoy muy contento con la ilustración de Vapnik debido a 2 razones: primero, se hace en términos de funciones de pérdidaΛ(c)inffΛ(c)cQ(z,α)y no los clasificadores, y, segundo, Fig. 3.2. del libro realmente no tiene sentido cuando consideramos la función de pérdida común para problemas de clasificación, es decir, la función que es igual a 0 cuando la etiqueta de clase pronosticada es igual a la etiqueta de clase verdadera y a 1 en caso contrario.

Entonces, ¿es posible dar otra ilustración más sensata del fundamento del concepto de consistencia estricta? Esencialmente, necesitamos un ejemplo de un conjunto de clasificadores de manera que estos clasificadores no sean consistentes (en términos de la definición de la Pregunta 1) y algún nuevo clasificador que funcione mejor que cualquiera de los clasificadores del conjunto, de modo que cuando agreguemos estos clasificadores al conjunto terminamos con el caso de "consistencia trivial". ¿Algunas ideas?

León
fuente

Respuestas:

1

Para su pregunta 1, tengo un ejemplo, pero requiere que la función de pérdida tome el valor . Estoy bastante seguro de que podemos dar un ejemplo que solo requiere una función de pérdida ilimitada, pero que sería un poco más de trabajo construir. Una pregunta abierta es si hay un ejemplo con una función de pérdida limitada.

Considere la configuración de clasificación, donde la distribución de probabilidad está en un espacio . Denotaremos un ejemplo por , con e . Sea el espacio de todas las funciones de clasificación en . Definir la función de pérdida.PZ=X×{0,1}z=(x,y)xXy{0,1}F=X{0,1}X

Q(z,f)=Q((x,y),f)={0for f(x)=yotherwise,
para cualquier . En otras palabras, si tiene un ejemplo incorrecto o si todos están equivocados, su riesgo es .fF

Ahora, supongamos que es un conjunto infinitamente contable, y que sea ​​cualquier distribución de probabilidad para la cual para todo . También, supongamos que hay una función de clasificación determinista, es decir, existe para el que para . Esto implica que .X={x1,x2,}PP({xi})>0i=1,2,cFyi=c(xi)i=1,2,...inffFR(f)=0

Luego, para cada , , pero (a menos que haya una elección extremadamente afortunada de entre todos los que tienen error empírico). Por lo tanto, , pero no converge a ese valorlRemp(fl)=0R(fl)=flfF0Remp(fl)inffFR(f)R(fl)

Para la pregunta 2, estoy de acuerdo en que su ejemplo no parece aplicarse al caso de clasificación, y no veo una manera obvia de hacer ese ejemplo.

DavidR
fuente
Gracias, @DavidR. Este es un ejemplo interesante cuando para cualquier y , pero cuando y cuando . Esto muestra que la definición de coherencia debe incluir "para cualquier parte ". Remp(fl)=0lflR(fl)=flcR(fl)=0fl=cfl
Leo