En el curso de aprendizaje automático de Andrew Ng , introduce la regresión lineal y la regresión logística, y muestra cómo ajustar los parámetros del modelo utilizando el descenso de gradiente y el método de Newton.
Sé que el descenso de gradiente puede ser útil en algunas aplicaciones de aprendizaje automático (p. Ej., Retropropagación), pero en el caso más general, ¿hay alguna razón por la que no resolvería los parámetros en forma cerrada, es decir, tomando la derivada de la función de costos y la resolución a través de cálculo?
¿Cuál es la ventaja de usar un algoritmo iterativo como el descenso de gradiente sobre una solución de forma cerrada en general, cuando hay una disponible?
Respuestas:
A menos que la solución de forma cerrada sea extremadamente costosa de calcular, generalmente es el camino a seguir cuando está disponible. Sin embargo,
Para la mayoría de los problemas de regresión no lineal no existe una solución de forma cerrada.
Incluso en la regresión lineal (uno de los pocos casos en los que hay disponible una solución de forma cerrada), puede ser poco práctico utilizar la fórmula. El siguiente ejemplo muestra una forma en que esto puede suceder.
Para la regresión lineal en un modelo de la forma , donde es una matriz con rango de columna completo, la solución de mínimos cuadrados,Xy=Xβ X
es dado por
Ahora, imagine que es una matriz muy grande pero dispersa. por ejemplo, puede tener 100,000 columnas y 1,000,000 de filas, pero solo 0.001% de las entradas en son distintas de cero. Existen estructuras de datos especializadas para almacenar solo las entradas distintas de cero de tales matrices dispersas. X XX X X
También imagine que tenemos mala suerte, y es una matriz bastante densa con un porcentaje mucho mayor de entradas distintas de cero. Almacenar una matriz densa de 100,000 por 100,000 elementos requeriría números de coma flotante (a 8 bytes por número, esto equivale a 80 gigabytes). Esto sería poco práctico para almacenar en cualquier cosa pero una supercomputadora Además, el inverso de esta matriz (o más comúnmente un factor Cholesky) también tenderá a tener entradas mayormente distintas de cero. X T X 1 × 10 10XTX XTX 1×1010
Sin embargo, existen métodos iterativos para resolver el problema de mínimos cuadrados que no requieren más almacenamiento que , , y y nunca de manera explícita formar el producto de la matriz . y β X T XX y β^ XTX
En esta situación, usar un método iterativo es mucho más eficiente computacionalmente que usar la solución de forma cerrada para el problema de mínimos cuadrados.
Este ejemplo puede parecer absurdamente grande. Sin embargo, los grandes problemas de mínimos cuadrados dispersos de este tamaño se resuelven rutinariamente mediante métodos iterativos en computadoras de escritorio en la investigación de tomografía sísmica.
fuente
Ha habido varias publicaciones sobre aprendizaje automático (ML) y regresión. ML no es necesario para resolver mínimos cuadrados ordinarios (MCO), ya que involucra una operación de emparejamiento de matriz de un solo paso para resolver un sistema de ecuaciones lineales, es decir, . El hecho de que todo sea lineal significa que solo se necesita una operación de un paso para resolver los coeficientes. La regresión logística se basa en maximizar la función de probabilidad , que se puede resolver utilizando Newton-Raphson u otros métodos de ascenso de gradiente ML, metaheurística (escalada, algoritmos genéticos, inteligencia de enjambre, optimización de colonias de hormigas, etc.) .β=(XTX)−1XTy L=∏ipi
Con respecto a la parsimonia, el uso de ML para OLS sería un desperdicio porque el aprendizaje iterativo es ineficiente para resolver OLS.
Ahora, volvamos a su pregunta real sobre los enfoques derivados frente a ML para resolver problemas basados en gradientes. Específicamente, para la regresión logística, se usa comúnmente el enfoque de descenso de gradiente de Newton-Raphson (basado en derivadas). Newton-Raphson requiere que conozca la función objetivo y sus derivadas parciales en cada parámetro (continuo en el límite y diferenciable). ML se usa principalmente cuando la función objetivo es demasiado compleja ("narly") y no conoce las derivadas. Por ejemplo, una red neuronal artificial (ANN) se puede utilizar para resolver un problema de aproximación de función o un problema de clasificación supervisada cuando la función no se conoce. En este caso, el ANN es la función.
No cometa el error de usar métodos de ML para resolver un problema de regresión logística, solo porque puede hacerlo. Para la logística, Newton-Raphson es extremadamente rápido y es la técnica adecuada para resolver el problema. ML se usa comúnmente cuando no sabes cuál es la función. (por cierto, los ANN son del campo de la inteligencia computacional, y no ML).
fuente