He estado jugando con la regresión logística con varios algoritmos de optimización por lotes (gradiente conjugado, newton-raphson y varios métodos de cuasinewton). Una cosa que he notado es que a veces, agregar más datos a un modelo puede hacer que la capacitación del modelo tome mucho menos tiempo. Cada iteración requiere mirar más puntos de datos, pero el número total de iteraciones requeridas puede disminuir significativamente al agregar más datos. Por supuesto, esto solo ocurre en ciertos conjuntos de datos, y en algún momento agregar más datos hará que la optimización disminuya la velocidad.
¿Es este un fenómeno bien estudiado? ¿Dónde puedo encontrar más información sobre por qué / cuándo puede ocurrir esto?
logistic
references
optimization
Mike Izbicki
fuente
fuente
Respuestas:
Con menos cantidades de datos, la correlación espuria entre las entradas de regresión es a menudo alta, ya que solo tiene tantos datos. Cuando las variables de regresión están correlacionadas, la superficie de probabilidad es relativamente plana, y se hace más difícil para un optimizador, especialmente uno que no usa el Hessian completo (por ejemplo, Newton Raphson), para encontrar el mínimo.
Aquí hay algunos gráficos agradables y más explicaciones sobre cómo funcionan varios algoritmos con los datos con diferentes cantidades de correlación, aquí: http://fa.bianp.net/blog/2013/numerical-optimizers-for-logistic-regression/
fuente