El título lo dice todo: ¿cuántos parámetros entrenables hay en una capa GRU? Este tipo de pregunta surge mucho cuando se intenta comparar modelos de diferentes tipos de capas RNN, como las unidades de memoria a largo plazo (LSTM) frente a GRU, en términos del rendimiento por parámetro. Dado que un mayor número de parámetros entrenables generalmente aumentará la capacidad de la red para aprender, comparar modelos alternativos por parámetro es una comparación de manzanas con manzanas de la efectividad relativa de GRU y LSTM.
fuente