El teorema de no almuerzo gratis y la consistencia de K-NN

En el aprendizaje computacional, el teorema de la NFL establece que no existe un alumno universal. Para cada algoritmo de aprendizaje, hay una distribución que hace que el alumno emite una hipotesis con un gran error, con alta probabilidad (aunque hay una hipotesis de bajo error). La conclusión es que para aprender, la clase de hipotesis o las distribuciones deben estar restringidas. En su libro "Una teoría probabilística del reconocimiento de patrones", Devroye et al prueban el siguiente teorema para el alumno vecino más cercano a K:

Assume μ has a density. if k \to \infty and k / n \to 0 then for every ϵ > 0, there's N, s.t. for all n > N : P (R_{n} - R^{*} > ϵ) < 2 e x p (- C_{d} n ϵ^{2})

$\text{Assume } \mu \text{ has a density. if } k\to \infty \text{ and } k/n\to0 \\ \text{ then for every } \epsilon>0, \text{ there's } N, \text{ s.t.} \text{ for all } n>N : \\ P(R_n - R^* > \epsilon)< 2exp(-C_dn \epsilon ^{2})$ Donde

R^{*}

$R^*$ es el error de la regla óptima de bayes,

R_{n}

$R_n$ es el verdadero error de la salida K-NN (el la probabilidad es superior al conjunto de entrenamiento de tamaño

n

$n$ ),

μ

$\mu$ es la medida de probabilidad en el espacio de instancia

R^{d}

$\mathbb{R}^d$ y

C_{d}

$C_d$ Esta constante depende solo de la dimensión euclidiana. Por lo tanto, podemos acercarnos tanto como queramos a la mejor hipótesis que existe (no la mejor en alguna clase restringida), sin hacer ninguna suposición sobre la distribución. ¿Entonces estoy tratando de entender cómo este resultado no contradice el teorema de la NFL? ¡Gracias!

k-nearest-neighbour consistency michael J
fuente

Respuestas:

La forma en que entiendo el teorema de la NFL es que no existe un algoritmo de aprendizaje que sea mejor que el resto en cada tarea. Sin embargo, este no es un teorema en el claro sentido matemático de que tiene una prueba, más bien una observación empírica.

Similar a lo que dijo para el kNN, también existe el Teorema de aproximación universal para redes neuronales, que establece que dada una red neuronal de 2 capas, podemos aproximar cualquier función con cualquier error arbitrario.

Ahora, ¿cómo esto no rompe la NFL? Básicamente establece que puede resolver cualquier problema concebible con un simple NN de 2 capas. La razón es que, si bien, teóricamente, los NN pueden aproximarse a cualquier cosa, en la práctica es muy difícil enseñarles a aproximar cualquier cosa. Es por eso que para algunas tareas, otros algoritmos son preferibles.

Una forma más práctica de interpretar la NFL es la siguiente:

No hay forma de determinar a priori qué algoritmo funcionará mejor para una tarea determinada.

CaucM
fuente

Gracias por la respuesta, pero hay algunas imprecisiones. Primero, el teorema de la NFL tiene una prueba (por ejemplo, shalev-shwartz y ben-david, comprensión del aprendizaje automático, capítulo 5). Para el teorema de aproximación universal: este teorema trata de la expresividad, mientras que el teorema de la NFL trata de la generalización.

Michael J