La "optimización convexa en línea" de Zinkevich ( http://www.cs.cmu.edu/~maz/publications/ICML03.pdf ) generaliza los algoritmos de aprendizaje de "minimización de arrepentimiento" de una configuración lineal a una configuración convexa y ofrece un buen "arrepentimiento externo" . ¿Existe una generalización similar para el arrepentimiento interno? (No estoy totalmente seguro ni siquiera qué significa exactamente eso).
19
¿Es posible agregar una breve descripción del arrepentimiento interno a la pregunta?
Moritz
En los "expertos" habituales, establecer el arrepentimiento interno significa que, en retrospectiva, no querrá cambiar una acción con otra, de manera consistente a lo largo de toda la historia. El artículo de Blum-Mansour es probablemente la mejor referencia para el arrepentimiento interno versus externo: jmlr.csail.mit.edu/papers/volume8/blum07a/blum07a.pdf
Noam