¿Por qué esta fusión ha demostrado ser beneficiosa?
Si piensa que la red de valor / política compartida consiste en un componente compartido (las capas de la red residual) con un componente de valor y política en la parte superior en lugar de la separación de preocupaciones, tiene más sentido.
La premisa subyacente es que la parte compartida de la red (ResNet) proporciona una generalización de alto nivel de la entrada (los estados del juego que conducen al movimiento) que es una buena representación de entrada para las redes de valor y políticas poco profundas.
Cuando ese es el caso, podemos reducir mucho la carga computacional entrenando una ResNet compartida y usándola para dos redes mucho más simples que entrenando dos ResNets para el Valor y la Política. En su caso, entrenar a los dos juntos también mejora la regularización y, por lo tanto, crea una representación general más sólida.
Específicamente, el documento Alpha Go Zero de Silver et al. , Dominando el juego de ir sin conocimiento humano , afirma que:
La combinación de la política y el valor en una sola red redujo ligeramente la precisión de la predicción de movimiento, pero redujo el error de valor y aumentó el rendimiento de juego en AlphaGo en alrededor de otros 600 Elo. Esto se debe en parte a la eficiencia computacional mejorada, pero lo más importante es que el doble objetivo regulariza la red a una representación común que admite múltiples casos de uso.
¿Se puede aplicar esta técnica en general o solo en casos especiales?
Al igual que los componentes comunes en las bibliotecas de software, solo tiene sentido cuando los problemas que intenta resolver se benefician de una representación compartida.
Puede usarlo si está entrenando clasificadores para tareas similares, o entrenando una nueva tarea con pocos datos donde ya tiene un clasificador entrenado sobre un conjunto de datos similar más grande .
Fuera de Go, a menudo se usa en el reconocimiento de imágenes. Las redes profundas previamente entrenadas, como las de las competiciones ImageNet ILSVRC , se utilizan comúnmente como punto de partida. Son clasificadores que han sido entrenados (¡durante semanas!) En más de un millón de imágenes.
Luego, digamos que desea crear una red para reconocer su marca favorita de bicicletas, comience con la tubería general de reconocimiento de imágenes entrenada en ImageNet, corte las últimas capas que hacen la clasificación real ("es un Border Collie") y agregue un pequeño clasificador nuevo para elegir solo las bicicletas que te interesan.
Dado que el clasificador previamente entrenado ya proporciona conceptos de imagen de alto nivel que son buenos bloques de construcción para el reconocimiento de imágenes (clasifica 200 categorías), esto le ahorra mucho entrenamiento y lo convierte en un clasificador muy robusto.
Por supuesto, hay muchos casos en los que los problemas no tienen representaciones compartidas útiles y, por lo tanto, no se benefician de una red combinada. Sin embargo, es una herramienta útil en las situaciones correctas.
Busque Transfer Learning o Multi-Task Learning para obtener más información al respecto.