La "optimización convexa en línea" de Zinkevich ( http://www.cs.cmu.edu/~maz/publications/ICML03.pdf ) generaliza los algoritmos de aprendizaje de "minimización de arrepentimiento" de una configuración lineal a una configuración convexa y ofrece un buen "arrepentimiento externo" . ¿Existe una generalización similar para el arrepentimiento interno? (No estoy totalmente seguro ni siquiera qué significa exactamente eso).
19
Respuestas:
Pruebe "Aprendizaje sin arrepentimiento en juegos convexos" de Gordon, Greenwald y Marks http://portal.acm.org/citation.cfm?id=1390202 . Su resumen parece que probablemente responde a su pregunta, o al menos cualquiera que responda esa pregunta citaría o sería citado por ese documento.
fuente
Este papel de Avrim Blum señala una conexión entre el arrepentimiento externo y el interno. Según su resumen, el arrepentimiento externo es una medida de qué tan mal se compara un algoritmo con la mejor acción fija, mientras que el arrepentimiento interno se compara con la mejor variación de ese método (mejor permutación fija de salidas, como informar la clase A cuando el algoritmo original informa clase B).
fuente