¿Qué hace que un modelo requiera una baja tasa de aprendizaje?

8

He reflexionado sobre esto por un tiempo sin desarrollar una intuición para las matemáticas detrás de la causa de esto.

Entonces, ¿qué hace que un modelo necesite una baja tasa de aprendizaje?

JohnAllen
fuente
También me preguntaba sobre esto y tengo curiosidad por saber por qué las RNN tienen una tasa de aprendizaje menor que las CNN. Por lo que sé, la complejidad del modelo (profundidad) y / o grandes conjuntos de datos requieren un hiperparámetro más fino para el lr.
Justin

Respuestas:

4

La pendiente de gradiente es un método para encontrar el parámetro óptimo de la hipótesis o minimizar la función de costo.

fórmula donde alfa es tasa de aprendizaje

Si la tasa de aprendizaje es alta, puede sobrepasar el mínimo y no puede minimizar la función de costo. ingrese la descripción de la imagen aquí

por lo tanto, resulta en una mayor pérdida.

ingrese la descripción de la imagen aquí

Dado que el descenso de gradiente solo puede encontrar un mínimo local, la tasa de aprendizaje más baja puede resultar en un mal rendimiento. Para hacerlo, es mejor comenzar con el valor aleatorio del hiperparámetro que puede aumentar el tiempo de entrenamiento del modelo, pero existen métodos avanzados como el descenso de gradiente adaptativo que puede administrar el tiempo de entrenamiento.

Hay muchos optimizadores para la misma tarea, pero ningún optimizador es perfecto. Depende de algunos factores

  1. tamaño de los datos de entrenamiento: a medida que aumenta el tamaño de los datos de entrenamiento, aumenta el tiempo de entrenamiento para el modelo. Si desea ir con menos tiempo de modelo de entrenamiento, puede elegir una mayor tasa de aprendizaje, pero puede resultar en un mal rendimiento.
  2. El optimizador (descenso de gradiente) se ralentizará siempre que el gradiente sea pequeño, entonces es mejor ir con una tasa de aprendizaje más alta.

PD. Siempre es mejor ir con diferentes rondas de descenso gradual

Posi2
fuente
44
Este es un buen comienzo, ya que muestra la diferencia entre las tasas de aprendizaje bajas y altas en general. También debe explicar por qué la buena tasa de aprendizaje varía según la tarea, y el OP preguntaba específicamente por qué algunos problemas requieren una tasa de aprendizaje más baja que otros
Neil Slater,
1
Ese es un buen punto. Lo he editado Como no se menciona un problema específico, voy con el general.
Posi2
1
Sigo pensando que esto no responde la pregunta. El OP no pregunta sobre el optimizador o los datos, sino sobre el modelo. ¿Cómo afecta el modelo (su arquitectura, número de parámetros, etc.) a la tasa de aprendizaje? Creo que esta es la pregunta real, que no responde. Todo lo demás es bastante irrelevante para la pregunta y solo confundirá a los lectores que no pueden distinguir entre estos conceptos.
nbro
Gracias por la respuesta. Independientemente de la arquitectura del modelo, ya que el número del parámetro, el tamaño de los datos y el rango de los datos (uso normalizado de la solución) es un resultado elevado en el mayor tiempo de entrenamiento, por lo que, de acuerdo con esto, debemos cambiar la tasa de aprendizaje. Esto se aplica para el modelo, como la regresión lineal, la regresión logística, SVM, etc., ya que utilizan GD para la optimización. Cualquier respuesta siempre es bienvenida :)
Posi2 01 de
¿Alguna prueba que evalúe su afirmación "independientemente de la arquitectura del modelo"? Esta respuesta aún no responde la pregunta OP. Está respondiendo a la pregunta "¿cómo cambia la tasa de aprendizaje en general, dependiendo de la configuración de aprendizaje automático?" (Y su respuesta no es exhaustiva, por supuesto, porque no menciona "cómo cambia la tasa de aprendizaje según el modelo ", es decir, la pregunta real).
nbro