Creo que Sutton y Barto siguen siendo el estándar. Hay muchas barajas de diapositivas y notas de las clases de IA en línea, pero generalmente no entran en demasiados detalles.
Sutton y Barto son un poco viejos, pero están preparando una segunda edición de su libro de texto. Un borrador, con fecha de enero de 2018, está disponible aquí ; está vinculado desde la página web de Sutton , que también tiene el texto completo de la primera edición.
Vería esto antes de abordar la toma de decisiones de Kochenderfer et al. Bajo incertidumbre . Ese libro tiene algunas aplicaciones interesantes (principalmente en aviación), pero se mueve rápidamente y rebota mucho. Los algoritmos de Szepesvári para el aprendizaje por refuerzo también son buenos, pero concisos: se necesitan unas veinte páginas para llegar a , frente a siete capítulos y 150 páginas en los nuevos Sutton y Barto.TD(λ)
Aparte de eso, puede intentar sumergirse en algunos documentos: las cosas de aprendizaje de refuerzo tienden a ser bastante accesibles.
Es posible que desee consultar Algorithms for Reinforcement Learning de Csaba Szepesvári, publicado en 2010. PDF descargable desde el sitio web. En mi opinión, es un poco más técnico que Sutton y Barto, pero cubre menos material.
fuente
Aquí tienes algunos buenos libros de texto / referencias:
Clásico
Sutton RS, Barto AG. Aprendizaje de refuerzo: una introducción. Cambridge, Mass: A Bradford Book; 1998. 322 p.
El borrador para la segunda edición está disponible de forma gratuita: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html
Russell / Norvig Capítulo 21:
Russell SJ, Norvig P, Davis E. Inteligencia artificial: un enfoque moderno. Upper Saddle River, Nueva Jersey: Prentice Hall; 2010
Más técnico
Szepesvári C. Algoritmos para el aprendizaje por refuerzo. Conferencias de síntesis sobre inteligencia artificial y aprendizaje automático. 2010; 4 (1): 1–103. http://www.ualberta.ca/~szepesva/RLBook.html
Bertsekas DP. Programación dinámica y control óptimo. 4ta edición. Belmont, Mass .: Athena Scientific; 2007. 1270 p. Capítulo 6, vol 2 está disponible de forma gratuita: http://web.mit.edu/dimitrib/www/dpchapter.pdf
Para desarrollos más recientes
Wiering M, van Otterlo M, editores. Aprendizaje reforzado. Berlín, Heidelberg: Springer Berlin Heidelberg; 2012 Disponible en: http://link.springer.com/10.1007/978-3-642-27645-3
Kochenderfer MJ, Amato C, Chowdhary G, How JP, Reynolds HJD, Thornton JR, et al. Toma de decisiones bajo incertidumbre: teoría y aplicación. 1 edición Cambridge, Massachusetts: The MIT Press; 2015. 352 p.
Aprendizaje de refuerzo multiagente
Buşoniu L, Babuška R, Schutter BD. Aprendizaje de refuerzo de múltiples agentes: una descripción general. En: Srinivasan D, Jain LC, editores. Innovaciones en sistemas y aplicaciones de múltiples agentes - 1. Springer Berlin Heidelberg; 2010 p. 183–221. Disponible en: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7
Schwartz HM. Aprendizaje automático de múltiples agentes: un enfoque de refuerzo. Hoboken, Nueva Jersey: Wiley; 2014.
Videos / Cursos
También sugeriría el curso David Silver en YouTube: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa
fuente
Mis notas de conferencias favoritas sobre el aprendizaje de refuerzo son las de Andrew Ng en el curso de Stanford sobre ML CS229:
Apuntes de aprendizaje de Rectacment Stanford CS229
También puede descargar los videos de la conferencia en iTunes. O en youtube, comienzan en el siguiente enlace:
Conferencia 16 CS229
fuente