Un proceso de decisión markoviano tiene que ver con pasar de un estado a otro y se utiliza principalmente para la planificación y la toma de decisiones .
La teoría
Simplemente repitiendo la teoría rápidamente, un MDP es:
MDP = ⟨ S, A , T, R , γ⟩
donde son los estados, las acciones, las probabilidades de transición (es decir, las probabilidades para ir de un estado a otro dada una acción), las recompensas (dado un cierto estado, y posiblemente acción), y es un factor de descuento que se utiliza para reducir la importancia de las recompensas futuras.SUNATPr(s′|s,a)Rγ
Entonces, para usarlo, debe haber predefinido:
- Estados : pueden referirse, por ejemplo , a mapas de cuadrícula en robótica, o por ejemplo, puerta abierta y puerta cerrada .
- Acciones : un conjunto fijo de acciones, como por ejemplo ir al norte, sur, este, etc. para un robot, o abrir y cerrar una puerta.
- Probabilidades de transición : la probabilidad de pasar de un estado a otro dada una acción. Por ejemplo, ¿cuál es la probabilidad de una puerta abierta si la acción está abierta ? En un mundo perfecto, el último podría ser 1.0, pero si es un robot, podría haber fallado en el manejo del pomo de la puerta correctamente. Otro ejemplo en el caso de un robot en movimiento sería la acción hacia el norte , que en la mayoría de los casos lo llevaría a la celda de la cuadrícula al norte, pero en algunos casos podría haberse movido demasiado y llegar a la siguiente celda, por ejemplo.
- Recompensas : se utilizan para guiar la planificación. En el caso del ejemplo de cuadrícula, es posible que deseemos ir a una celda determinada, y la recompensa será mayor si nos acercamos. En el caso del ejemplo de puerta, una puerta abierta puede dar una alta recompensa.
Una vez que se define el MDP, se puede aprender una política haciendo la iteración del valor o la iteración de la política que calcula la recompensa esperada para cada uno de los estados. La política luego da por estado la mejor acción (dado el modelo MDP) para hacer.
En resumen, un MDP es útil cuando desea planificar una secuencia eficiente de acciones en las que sus acciones no siempre pueden ser 100% efectivas.
Tus preguntas
¿Se puede usar para predecir cosas?
Yo lo llamaría planificación, no prediciendo, como la regresión, por ejemplo.
Si es así, ¿qué tipo de cosas?
Ver ejemplos .
¿Puede encontrar patrones entre cantidades infinitas de datos?
Los MDP se utilizan para hacer Aprendizaje de refuerzo , para encontrar patrones que necesita Aprendizaje sin supervisión . Y no, no puede manejar una cantidad infinita de datos. En realidad, la complejidad de encontrar una política crece exponencialmente con el número de estados.|S|
¿Qué puede hacer este algoritmo por mí?
Ver ejemplos .
Ejemplos de aplicaciones de MDP
- White, DJ (1993) menciona una gran lista de aplicaciones:
- Cosecha: la cantidad de miembros de una población que quedan para la reproducción.
- Agricultura: cuánto plantar según el clima y el estado del suelo.
- Recursos hídricos: mantenga el nivel de agua correcto en los embalses.
- Inspección, mantenimiento y reparación: cuándo reemplazar / inspeccionar según la edad, el estado, etc.
- Compra y producción: cuánto producir en función de la demanda.
- Colas: reducen el tiempo de espera.
- ...
- Finanzas: decidir cuánto invertir en acciones.
- Robótica:
Y hay bastantes modelos más. Un modelo aún más interesante es el Proceso de decisión de Markovian parcialmente observable en el que los estados no son completamente visibles y, en cambio, las observaciones se utilizan para tener una idea del estado actual, pero esto está fuera del alcance de esta pregunta.
Información Adicional
Un proceso estocástico es Markovian (o tiene la propiedad Markov) si la distribución de probabilidad condicional de los estados futuros solo depende del estado actual, y no de los anteriores (es decir, no en una lista de estados anteriores).
states
,actions
,transition probabilities
yrewards
definido se denomina como de Markov?