Quiero crear una IA que pueda jugar cinco en raya / gomoku. Como mencioné en el título, quiero usar el aprendizaje de refuerzo para esto. Utilizo el método de gradiente de políticas , a saber, REINFORCE, con línea de base. Para el valor y la aproximación de la función política, utilizo una red...
                        20
                    
  
                    
                            ¿Cómo manejar movimientos inválidos en el aprendizaje por refuerzo?
                            
                        
                    