Comportamiento extraño con Adam Optimizer cuando se entrena durante demasiado tiempo

Estoy tratando de entrenar un solo perceptrón (1000 unidades de entrada, 1 salida, sin capas ocultas) en 64 puntos de datos generados aleatoriamente. Estoy usando Pytorch usando el optimizador Adam: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64,...