¿La regresión lineal es obsoleta? [cerrado]

12

Actualmente estoy en una clase de regresión lineal, pero no puedo sacudir la sensación de que lo que estoy aprendiendo ya no es relevante ni en las estadísticas modernas ni en el aprendizaje automático. ¿Por qué se dedica tanto tiempo a hacer inferencia en regresión lineal simple o múltiple cuando tantos conjuntos de datos interesantes en estos días con frecuencia violan muchos de los supuestos poco realistas de la regresión lineal? ¿Por qué no enseñar inferencia en herramientas más flexibles y modernas como la regresión utilizando máquinas de vectores de soporte o procesos gaussianos? Aunque es más complicado que encontrar un hiperplano en un espacio, ¿no les daría esto a los estudiantes una mejor experiencia para abordar los problemas de hoy en día?

Emu anónimo
fuente
10
¿Los destornilladores hacen que los martillos queden obsoletos? ¿O cada uno realiza una tarea diferente?
Sycorax dice Reinstate Monica
66
Tengo una herramienta múltiple que funciona como un cuchillo, una sierra, un par de destornilladores diferentes, un par de alicates y probablemente un par de otras cosas, pero cuando necesito alguna de esas herramientas es lo último que busco. Solo es útil en caso de apuro, nunca es la "mejor herramienta para el trabajo".
Darren
77
Muchas, muchas situaciones que enfrentan las personas reales involucran conjuntos de datos muy pequeños con alto ruido; en muchos casos, los modelos más complejos no son factibles, mientras que al menos una buena parte del tiempo un modelo lineal simple es al menos sostenible. Si bien los grandes conjuntos de datos (y sus problemas asociados) continuarán creciendo como proporción del análisis total de datos que se realiza, los conjuntos de datos muy pequeños y los análisis relativamente simples en los que se basan nunca desaparecerán. Además, las herramientas más sofisticadas se crean directamente sobre las más simples, no solo históricamente sino también conceptualmente.
Glen_b -Reinstalar Monica
66
Además de las muchas situaciones donde la regresión lineal es de uso práctico continuo, también vale la pena señalar que es fundamental para aprender sobre una amplia clase de modelos aditivos más sofisticados. En ese sentido, esta pregunta es como preguntar si el cálculo hace obsoleta la aritmética.
Jacob Socolar
1
@ Aksakal Por favor, explique. ¿Qué pasa con el uso en la optimización bayesiana?
Mark L. Stone

Respuestas:

24

Es cierto que los supuestos de la regresión lineal no son realistas. Sin embargo, esto es cierto para todos los modelos estadísticos. "Todos los modelos están equivocados, pero algunos son útiles".

Supongo que tiene la impresión de que no hay razón para usar la regresión lineal cuando podría usar un modelo más complejo. Esto no es cierto, porque en general, los modelos más complejos son más vulnerables al sobreajuste, y utilizan más recursos computacionales, lo cual es importante si, por ejemplo, está tratando de hacer estadísticas en un procesador incorporado o un servidor web. Los modelos más simples también son más fáciles de entender e interpretar; por el contrario, los modelos complejos de aprendizaje automático, como las redes neuronales, tienden a terminar como cajas negras, más o menos.

Incluso si algún día la regresión lineal deja de ser prácticamente útil (lo que parece extremadamente improbable en el futuro previsible), seguirá siendo teóricamente importante, porque los modelos más complejos tienden a basarse en la regresión lineal como base. Por ejemplo, para comprender una regresión logística regularizada de efectos mixtos, primero debe comprender la regresión lineal simple.

Esto no quiere decir que los modelos más complejos, nuevos y brillantes no sean útiles o importantes. Muchos de ellos lo son. Pero los modelos más simples son más ampliamente aplicables y, por lo tanto, más importantes, y claramente tienen sentido presentar primero si va a presentar una variedad de modelos. Hay muchos análisis de datos erróneos realizados en la actualidad por personas que se hacen llamar "científicos de datos" o algo por el estilo, pero que ni siquiera conocen las cosas fundamentales, como qué es realmente un intervalo de confianza. ¡No seas una estadística!

Kodiólogo
fuente
¿Puedes aclarar lo que quieres decir con un "modelo complejo"? ¿OP significa lo mismo?
Hatshepsut
1
@Hatshepsut Prácticamente cualquier cosa que no sea solo una regresión lineal o un caso especial de la misma. El OP dio ejemplos de SVM y procesos gaussianos. Mencioné modelos mixtos, regresión logística y regresión penalizada. Algunos otros ejemplos son árboles de decisión, redes neuronales, MARS, modelos jerárquicos bayesianos y modelos de ecuaciones estructurales. Si se pregunta cómo decidimos si un modelo es más complejo que otro, o qué es exactamente lo que cuenta como modelo, esas son preguntas de validación cruzada en sí mismas.
Kodiologist
"Sobreajuste"; como usar un polinomio de noveno orden para ajustar algo que resultó ser una suma ponderada de exponenciales. Encajaba tan bien que la trama reproducía los errores del instrumento justo por encima del nivel de ruido. Todavía me pregunto si usar ese polinomio hubiera funcionado mejor.
Joshua
7

La regresión lineal en general no es obsoleta . Todavía hay personas que están trabajando en la investigación sobre métodos relacionados con LASSO, y cómo se relacionan con las pruebas múltiples, por ejemplo: puedes buscar en Google Emmanuel Candes y Malgorzata Bogdan.

Si está preguntando sobre el algoritmo OLS en particular, la respuesta por la que enseñan esto es que el método es tan simple que tiene una solución de forma cerrada. También es más simple que la regresión de cresta o la versión con lazo / elasticnet. Puede construir su intuición / pruebas en la solución de regresión lineal simple y luego enriquecer el modelo con restricciones adicionales.

Jakub Bartczuk
fuente
3

No creo que la regresión sea antigua, podría considerarse trivial para algunos problemas que actualmente enfrentan los científicos de datos, pero sigue siendo el ABC del análisis estadístico. ¿Cómo se supone que debes entender si SVM funciona correctamente si no sabes cómo funciona el modelo más simple? El uso de una herramienta tan simple le enseña a USTED cómo examinar los datos antes de saltar a modelos complejos y locos y comprender profundamente qué herramientas se pueden utilizar en un análisis posterior y cuáles no. Una vez que tuve esta conversación con un profesor y un colega mío, me dijo que sus estudiantes eran excelentes en la aplicación de modelos complejos, pero que no podían entender qué apalancamiento o leían un simple diagrama qq para entender qué estaba mal con los datos. A menudo, en el modelo más simple y legible destaca la belleza.

Fra Contin
fuente
3

La respuesta corta es no . Por ejemplo, si prueba el modelo lineal con datos MNIST, aún obtendrá ~ 90% de la precisión.

Una respuesta larga sería "dependiendo del dominio", pero el modelo lineal es ampliamente utilizado.

  • En ciertos campos, digamos, estudio médico, es muy costoso obtener un punto de datos. Y el trabajo de análisis sigue siendo similar al de hace muchos años: la regresión lineal sigue desempeñando un papel muy importante.

  • En el aprendizaje automático moderno, por ejemplo, la clasificación de texto, el modelo lineal sigue siendo muy importante, aunque hay otros modelos más sofisticados. Esto se debe a que el modelo lineal es muy "estable", tendrá menos gusto de ajustar demasiado los datos.

Finalmente, el modelo lineal es realmente la base para la mayoría de los otros modelos. Aprender bien te beneficiará en el futuro.

Haitao Du
fuente
2

En términos prácticos, la regresión lineal es útil incluso si también está utilizando un modelo más complejo para su trabajo. La clave es que la regresión lineal es fácil de entender y, por lo tanto, fácil de usar para comprender conceptualmente lo que sucede en modelos más complejos.

Puedo ofrecerle un ejemplo práctico de aplicación de mi trabajo real en vivo como analista estadístico. Si te encuentras en la naturaleza, sin supervisión, con un gran conjunto de datos, y tu jefe te pide que hagas un análisis, ¿por dónde empiezas? Bueno, si no está familiarizado con el conjunto de datos y no tiene una buena idea de cómo se espera que las diversas características se relacionen entre sí, entonces un modelo complejo como los que sugirió es un mal lugar para comenzar a investigar.

En cambio, el mejor lugar para comenzar es una simple regresión lineal antigua. Realice un análisis de regresión, mire coeficientes y grafique los residuos. Una vez que comience a ver qué sucede con los datos, puede tomar algunas decisiones sobre qué métodos avanzados intentará aplicar.

Afirmo que si simplemente conectó sus datos en un cuadro negro de modelo avanzado como sklearn.svm (si está en Python), tendrá muy poca confianza en que sus resultados serán significativos.

Kingledion
fuente