Tengo una duda sobre cómo se entrena exactamente la función de pérdida de una red Deep Q-Learning. Estoy usando una red de alimentación de 2 capas con capa de salida lineal y capas ocultas relu. Supongamos que tengo 4 acciones posibles. Por lo tanto, la salida de mi red para el estado actual es ....