¿Realmente realizamos análisis de regresión multivariante con * millones * de coeficientes / variables independientes?

18

Estoy pasando algo de tiempo aprendiendo machine learning (perdón por la recursividad :) y no pude evitar sentirme intrigada por la regla general de elegir Gradient Descent sobre la resolución de ecuaciones directas para calcular los coeficientes de regresión, en el caso de la regresión lineal multivariada.

Regla general: si el número de características (coeficientes de lectura / variables independientes) está entre o más de un millón, vaya con Descenso de gradiente, de lo contrario, el cálculo inverso de la matriz es bastante manejable en hardware de consumo y, por lo tanto, calcula el los coeficientes directamente deberían funcionar lo suficientemente bien.10,000-1,000,000

Computacionalmente hablando, obtengo el compromiso / limitaciones. Pero desde un punto de vista estadístico, ¿realmente calculamos modelos con tantos coeficientes? Si recuerdo mis clases de regresión lineal multivariante en la escuela de posgrado, se nos advirtió contra el uso de demasiadas variables independientes, ya que pueden tener un impacto muy insignificante en la variable dependiente o sus distribuciones no obedecerían los supuestos que hacemos sobre los datos. Incluso si expandiera mi mente para pensar "muchas IV", aún no habría pensado en millones .

Pregunta (s):

  • ¿Esto realmente sucede o es una cuestión teórica?
  • ¿Cuál es el punto de analizar un millón de IVs? ¿Realmente nos da tanto aumento en el valor de la información obtenida en lugar de ignorarlos?
  • ¿O es porque, inicialmente no tenemos idea de lo que es útil, por lo que simplemente ejecutamos la maldita regresión para ver qué es útil e ir desde allí y posiblemente podar el conjunto de IV?

Todavía creo que solo porque podemos analizar "todo" en realidad no significa que debamos arrojarlo a un solucionador (o lo hace) y algunas de mis preguntas anteriores reflejan POV similares.

Todavía no he terminado el curso y quizás esté haciendo la pregunta pronto, pero no puedo entender este pensamiento de "Por qué" y estoy tratando de entenderlo lo mejor que pueda.

Doctor
fuente

Respuestas:

14

¿Esto realmente sucede o es una cuestión teórica?

Sucede, vea cualquier modelo popular de aprendizaje profundo para la visión por computadora. Digamos que alexnet tiene una conexión densa entre 2048 y 2048 unidades, es decir, 4 millones de coeficientes.

¿Cuál es el punto de analizar un millón de IVs? ¿Realmente nos da tanto aumento en el valor de la información obtenida en lugar de ignorarlos?

Si está analizando datos altamente categóricos (por ejemplo, datos de publicidad en Internet ), su modelo tiene que mantener algunas 'descripciones' significativas para cada categoría (por ejemplo, ciudad, identificación de página, nombre de sitio, identificación de publicidad, identificación de usuario, etc.), la actual El tamaño de la 'descripción' depende del modelo ML seleccionado.

Incluso la regresión logística simple tendrá que ajustar docenas de miles de parámetros (uno por categoría). Los modelos más avanzados, como las máquinas de factorización, tendrán tiempos más.

¿O es porque, inicialmente no tenemos idea de lo que es útil, por lo que simplemente ejecutamos la maldita regresión para ver qué es útil e ir desde allí y posiblemente podar el conjunto de IV?

En realidad, la mayoría de los parámetros ajustados en estos modelos se pueden descartar, pero no puede saberlo de antemano, por lo que deja el problema de definir qué parámetros son importantes para el aprendizaje automático e impone algunas regularizaciones para poner el 'límite suave' al número efectivo de parámetros para quedarse.

... y creo que encontrará estos ejemplos más adelante en su curso de ML.

Alleo
fuente