¿Cómo funciona la búsqueda de novedades?

16

En este artículo , el autor afirma que guiar la evolución solo por la novedad (sin objetivos explícitos) puede resolver los problemas incluso mejor que usar objetivos explícitos. En otras palabras, usar una medida de novedad como una función de aptitud para un algoritmo genético funciona mejor que una función de aptitud dirigida por objetivos. ¿Cómo es eso posible?

rcpinto
fuente

Respuestas:

7

Como se explicó en una respuesta a esta pregunta de AI SE , los GA son 'satisfechos' en lugar de 'optimizadores' y tienden a no explorar regiones 'periféricas' del espacio de búsqueda. Más bien, la población tiende a agruparse en regiones que son "bastante buenas" según la función de aptitud física.

Por el contrario, creo que el pensamiento es que la novedad ofrece un tipo de aptitud dinámica, que tiende a alejar a la población de las áreas descubiertas previamente.

NietzscheanAI
fuente
6

La búsqueda de novedad selecciona "comportamiento novedoso", según alguna definición de novedad dependiente del dominio. Por ejemplo, la novedad en un dominio de resolución de laberintos podría ser "diferencia de ruta explorada". Eventualmente, se encontrarán redes que toman todas las rutas posibles a través del laberinto, y luego puede seleccionar la más rápida. Esto funcionaría mucho mejor que un ingenuo "objetivo", como la distancia a la meta, que fácilmente podría dar como resultado un óptimo local que nunca resuelva el laberinto.

De Abandonando Objetivos: Evolución a través de la Búsqueda de Novedad Solamente (énfasis mío):

En la búsqueda de novedades, en lugar de medir el progreso general con una función objetivo tradicional, la evolución emplea una medida de novedad conductual llamada métrica de novedad. En efecto, una búsqueda guiada por dicha métrica realiza explícitamente lo que la evolución natural hace pasivamente, es decir, acumulando gradualmente formas novedosas que ascienden en la escala de complejidad.
Por ejemplo, en un dominio de locomoción bípedo, los intentos iniciales simplemente podrían fallar. La métrica de la novedad recompensaría simplemente caer de una manera diferente, independientemente de si está más cerca del comportamiento objetivo o no. Por el contrario, una función objetivo puede recompensar explícitamente la caída más lejana, lo que probablemente no conduce al objetivo final de caminar y, por lo tanto, ejemplifica un óptimo local engañoso. Por el contrario, en la búsqueda de la novedad, se mantiene un conjunto de instancias que representan los descubrimientos más novedosos. La búsqueda adicional luego salta de estos comportamientos representativos. Después de descubrir algunas formas de caer, la única forma de ser recompensado es encontrar un comportamiento que no caiga de inmediato . De esta manera, la complejidad del comportamiento aumenta de abajo hacia arriba.Finalmente, para hacer algo nuevo, el bípedo tendría que caminar con éxito una cierta distancia, aunque no sea un objetivo .

micimizar
fuente