Estoy pasando algo de tiempo aprendiendo machine learning (perdón por la recursividad :) y no pude evitar sentirme intrigada por la regla general de elegir Gradient Descent sobre la resolución de ecuaciones directas para calcular los coeficientes de regresión, en el caso de la regresión lineal multivariada.
Regla general: si el número de características (coeficientes de lectura / variables independientes) está entre o más de un millón, vaya con Descenso de gradiente, de lo contrario, el cálculo inverso de la matriz es bastante manejable en hardware de consumo y, por lo tanto, calcula el los coeficientes directamente deberían funcionar lo suficientemente bien.
Computacionalmente hablando, obtengo el compromiso / limitaciones. Pero desde un punto de vista estadístico, ¿realmente calculamos modelos con tantos coeficientes? Si recuerdo mis clases de regresión lineal multivariante en la escuela de posgrado, se nos advirtió contra el uso de demasiadas variables independientes, ya que pueden tener un impacto muy insignificante en la variable dependiente o sus distribuciones no obedecerían los supuestos que hacemos sobre los datos. Incluso si expandiera mi mente para pensar "muchas IV", aún no habría pensado en millones .
Pregunta (s):
- ¿Esto realmente sucede o es una cuestión teórica?
- ¿Cuál es el punto de analizar un millón de IVs? ¿Realmente nos da tanto aumento en el valor de la información obtenida en lugar de ignorarlos?
- ¿O es porque, inicialmente no tenemos idea de lo que es útil, por lo que simplemente ejecutamos la maldita regresión para ver qué es útil e ir desde allí y posiblemente podar el conjunto de IV?
Todavía creo que solo porque podemos analizar "todo" en realidad no significa que debamos arrojarlo a un solucionador (o lo hace) y algunas de mis preguntas anteriores reflejan POV similares.
Todavía no he terminado el curso y quizás esté haciendo la pregunta pronto, pero no puedo entender este pensamiento de "Por qué" y estoy tratando de entenderlo lo mejor que pueda.