Comprender el teorema del almuerzo gratis en la Clasificación de patrones de Duda et al.

12

Tengo algunas preguntas sobre las anotaciones utilizadas en la Sección 9.2 Falta de superioridad inherente de cualquier clasificador en la clasificación de patrones de Duda, Hart y Stork . Primero permítanme citar algunos textos relevantes del libro:

  • Para simplificar, considere un problema de dos categorías, donde el conjunto de entrenamiento consiste en patrones y las etiquetas de categoría asociadas para generado por la función objetivo desconocida a aprender, , donde .Dxiyi=±1i=1,...,nF(x)yi=F(xi)
  • Deje denotar el conjunto (discreto) de hipótesis, o posibles conjuntos de parámetros a aprender. Una hipótesis particular podría describirse mediante pesos cuantificados en una red neuronal, o parámetros 0 en un modelo funcional, o conjuntos de decisiones en un árbol, y así sucesivamente.Hh(x)H
  • Además, es la probabilidad previa de que el algoritmo produzca la hipótesis después del entrenamiento; tenga en cuenta que esta no es la probabilidad de que sea ​​correcta.P(h)hh
  • A continuación, indica la probabilidad de que el algoritmo producirá hipótesis cuando entrenados en los datos . En algoritmos de aprendizaje deterministas como el vecino más cercano y los árboles de decisión, estará en todas partes cero, excepto por una sola hipótesis . Para los métodos estocásticos (como las redes neuronales entrenadas a partir de pesos iniciales aleatorios) o el aprendizaje estocástico de Boltzmann, puede ser una distribución amplia.P(h|D)hDP(h|D)hP(h|D)
  • Deje que sea ​​el error para una función de pérdida de cero uno u otra.E

El error de clasificación esperado del conjunto fuera del entrenamiento cuando la función verdadera es y la probabilidad para el algoritmo de aprendizaje ésimo candidato es viene dada pork PF(x)kE k ( E | F , n ) = x D P ( x ) [ 1 - δ ( F ( x ) , h ( x ) ) ] P k ( h ( x ) | D )Pk(h(x)|D)

Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)

Teorema 9.1. (Sin almuerzo gratis) Para cualquiera de los dos algoritmos de aprendizaje y , los siguientes son verdaderos, independientemente de la distribución de muestreo y el número de puntos de entrenamiento:P 2 ( h | D ) P ( x ) nP1(h|D)P2(h|D)P(x)n

  1. Promedio uniforme sobre todas las funciones objetivo ,FE1(E|F,n)E2(E|F,n)=0

  2. Para cualquier conjunto de entrenamiento fijo , promediado uniformemente sobre , DFE1(E|F,D)E2(E|F,D)=0

La parte 1 en realidad dice

FDP(D|F)[E1(E|F,n)E2(E|F,n)]=0

La parte 2 en realidad dice

F[E1(E|F,D)E2(E|F,D)]=0

Mis preguntas son

  1. En la fórmula de , es decir, ¿puedo reemplazar con y moverlo fuera de la suma , porque es realmente una distribución de sobre dado para el algoritmo de aprendizaje estocástico ?Ek(E|F,n)
    Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D),
    Pk(h(x)|D)Pk(h|D)xDhHDk
  2. Dado que el ésimo candidato algoritmo de aprendizaje es un método estocástico, por lo que en la fórmula de , no hay suma sobre , es decir, ?kEk(E|F,n)hhH
  3. ¿En qué se diferencian y entre sí?Ei(E|F,D)Ei(E|F,n)

    ¿ significa la tasa de error fuera del entrenamiento dado un conjunto de entrenamiento ?Ei(E|F,D)D

    ¿ significa la tasa de error fuera del entrenamiento, promedio sobre todo el conjunto de entrenamiento dado un tamaño de entrenamiento ? En caso afirmativo, ¿por qué la parte 1 en el teorema de la NFL promedia sobre los conjuntos de entrenamiento nuevamente escribiendo , y por qué en la fórmula para , no hay un promedio sobre todo el conjunto de entrenamiento dado un tamaño de entrenamiento ?Ei(E|F,n)nEi(E|F,n)DEk(E|F,n)n

  4. En la parte 1 del teorema de la NFL, ¿ significa sumar sobre todos los conjuntos de entrenamiento con un tamaño de entrenamiento fijo ?Dn
  5. Si suma más sobre todos los valores posibles en del tamaño de entrenamiento en la parte 1, el resultado sigue siendo 0, ¿verdad?Nn
  6. En la fórmula de , si cambio a , es decir, no está necesariamente restringido a estar fuera del conjunto de entrenamiento, ambas partes El teorema de la NFL sigue siendo cierto?Ek(E|F,n)xDxx
  7. Si la verdadera relación entre y no se supone que son una función determinista como , pero en lugar distribuciones condicional , o una distribución conjunta que es equivalente a conociendo y (también vea mi otra pregunta ), entonces puedo cambiar para que sea (con el extraño señalado en las partes 1 y 2). ¿Siguen siendo ciertas las dos partes del teorema de la NFL?xyFy=F(x)P(y|x)P(x,y)P(y|x)P(x)Ek(E|F,n)
    Ek(E|P(x,y),n)=Ex,y[1δ(y,h(x))]Pk(h(x)|D)
    Pk(h(x)|D)

¡Gracias y saludos!

Tim
fuente
¿Es el Dirac / Kronecker-delta? Enδ
Ek(E|F,n)=xDP(x)[1δ(F(x),h(x))]Pk(h(x)|D)
¿Es este teorema de No Free Lunch el mismo que el problema de detención? ¿Están conectados?

Respuestas:

6

Contestaré las preguntas para las que creo que sé las respuestas.

  1. Esta respuesta es no porque está eligiendo una que no era parte del conjunto de ajuste y, por lo tanto, depende de .xDhx
  2. h solo se evalúa en los valores en el conjunto de prueba para obtener la tasa de error esperada, por lo que no se evalúa en todo el conjunto sino solo en el conjunto discreto de 's en el conjunto de prueba.xHx
  3. Ei(E|F,D) se espera que el conjunto de entrenamiento fuera de tasa de error dada la función y el conjunto de entrenamiento . Pero creo que es diferente porque solo estás condicionando el número de puntos de entrenamiento y no los valores reales de . Pero esto es desconcertante dadas las declaraciones posteriores.FDEi(E|F,n)nx
  4. D es el conjunto de vectores de entrenamiento. Hay vectores de entrenamiento en . Por lo que se sumó para los fijos vectores de entrenamiento en . Sólo hay un conjunto .nDnDD
  5. Creo que la respuesta a 5 es no. La notación parece ser un poco confusa.

No puedo comentar sobre 6 y 7.

Michael R. Chernick
fuente
2
+1. Bienvenido al sitio, soy un gran admirador de sus comentarios en Amazon. Disculpe mi presunción en la edición, la notación matemática se realiza principalmente poniendo $ 's en ambos lados de algo. Si hace clic en el círculo amarillo? en la esquina superior derecha al escribir, verá un enlace para "ayuda avanzada" que le dará más información; Además, puede hacer clic con el botón derecho en algunos mathjax existentes (como cualquiera de los anteriores) y seleccionar "Mostrar Matemáticas como -> Comandos TeX" para ver cómo se hizo.
gung - Restablece a Monica
2
En otras palabras, @gung dice: Este sitio admite en (casi) exactamente de la manera que esperarías, incluidas las matemáticas de visualización. Bienvenido al sitio. LATEX
cardenal
@Michael Permítanme agregar mi bienvenida a estos otros: estoy encantado de verte aquí. (Michael ha hecho contribuciones excepcionalmente bien informadas en las listas de discusión de la Asociación Americana de Estadística.)
whuber