RNN con L2 La regularización deja de aprender

10

Utilizo RNN bidireccional para detectar un evento de ocurrencia desequilibrada. La clase positiva es 100 veces menos frecuente que la clase negativa. Si bien no se utiliza la regularización, puedo obtener un 100% de precisión en el conjunto de trenes y un 30% en el conjunto de validación. Enciendo la regularización l2 y el resultado es solo un 30% de precisión en el conjunto de trenes también en lugar de un aprendizaje más largo y un 100% de precisión en el conjunto de validación.

Estaba pensando que tal vez mis datos son demasiado pequeños, así que solo por experimento fusioné el conjunto de trenes con el conjunto de prueba que no usé antes. La situación era la misma que yo usaría la regularización l2, lo que no hacía ahora. Obtengo un 30% de precisión en tren + prueba y validación.

En uso 128 unidades ocultas y 80 pasos en los experimentos mencionados. Cuando aumenté el número de unidades ocultas a 256, puedo volver a equiparme en el conjunto de tren + prueba para obtener un 100% de precisión, pero solo un 30% en el conjunto de validación.

Probé tantas opciones para hiperparámetros y casi ningún resultado. Tal vez la entropía cruzada ponderada está causando el problema, en experimentos dados el peso en la clase positiva es 5. Al intentar pesos más grandes, los resultados a menudo son peores en torno al 20% de precisión.

Probé las células LSTM y GRU, no hay diferencia.

Los mejores resultados que obtuve. Probé 2 capas ocultas con 256 unidades ocultas, tomó alrededor de 3 días de cálculo y 8 GB de memoria de GPU. Obtuve alrededor del 40-50% de precisión antes de que comience a sobreajustar nuevamente mientras la regularización l2 estaba activada pero no tan fuerte.

Yo uso los optimizadores Adam, otros no funcionaron tan bien. La característica que tengo es suficiente, porque mientras uso la máquina de estado puedo obtener un 90% de precisión. En esa máquina de estado, la característica principal es la suma y el umbral en función de otras propiedades de la característica y su longitud variable, a veces es 10, a veces 20 marcas de tiempo, que habla de la característica.

¿Hay alguna pauta general sobre qué hacer en esta situación? No pude encontrar nada.

Andrej Fogelton
fuente

Respuestas:

11

El artículo de Bengio et al. " Sobre la dificultad de entrenar redes neuronales recurrentes " da una pista de por qué la regularización de L2 podría matar el rendimiento de RNN. Esencialmente, la regularización de L1 / L2 de las células RNN también compromete la capacidad de las células para aprender y retener información a través del tiempo.

λ1Wrecλ1

Sycorax dice reinstalar a Mónica
fuente