¿Por qué estudiar la regresión lineal?

13

Dadas dos variables aleatorias y η podemos calcular su "coeficiente de correlación" c , y formar la línea de mejor ajuste entre estas dos variables aleatorias. Mi pregunta es por quéξηc

1) Hay variables aleatorias, y η que dependen de la peor manera posible, es decir, ξ = f ( η ) y, a pesar de esto, c = 0 . Si uno solo piensa en una regresión lineal, entonces estaría totalmente cegado a esto.ξηξ=f(η)c=0

2) ¿Por qué lineal específicamente? Existen otros tipos de relaciones que pueden existir entre variables aleatorias. ¿Por qué elegir ese de todos los demás?

Nicolas Bourbaki
fuente
18
Esto es como preguntar por qué tienes un destornillador cuando a veces encuentras clavos.
Sycorax dice Reinstate Monica
66
También parece estar asumiendo la premisa de que hay personas por ahí que solo se preocupan por la regresión lineal: "Si uno solo piensa en la regresión lineal", "¿Por qué esa única de todas las demás? ". Esto me parece un hombre de paja, por supuesto, es ridículo adherirse a una sola herramienta o perspectiva.
Matthew Drury
77
Lineal "específicamente" realmente se trata más de combinaciones lineales de funciones básicas , que en realidad son bastante generales.
GeoMatt22
2
@MatthewDrury No hay ningún hombre de paja, y no estoy asumiendo nada, simplemente hago una pregunta usando un caso patológico de pensamiento extremo para ilustrar un punto débil en el método. ¿Por qué asumes que yo asumo eso? La regresión es un tema muy amplio para los estadísticos. No entiendo qué tiene de especial que se estudie tanto.
Nicolas Bourbaki
8
Para aquellos que están cayendo en esta pregunta: creo que te has olvidado cuando aprendiste sobre la regresión lineal y te dijeron "uno de los supuestos es el de un efecto lineal". Pensaste para ti mismo "¡pero un efecto nunca es lineal!". Muy probablemente, después de mucho reflexionar, se convenció de que a pesar de esto, la regresión lineal seguía siendo una herramienta fundamental para ser entendida y utilizada. Ahora solo reiníciate antes de completar esa reflexión. Creo que es una gran pregunta que cada estudiante de estadísticas debería pasar mucho tiempo considerando.
Cliff AB

Respuestas:

9

Estoy de acuerdo en que no todas las relaciones son lineales en sí mismas, pero muchas relaciones pueden aproximarse linealmente. Hemos visto muchos casos de este tipo en matemáticas, como la serie de Taylor o la serie de Fourier, etc. El punto clave aquí es, dijo geomatt22 en el comentario, que en general puede transformar los datos no lineales y aplicar algún tipo de transformación con funciones básicas y linealizar el relación. La razón por la que las universidades solo abordan los 'modelos de regresión lineal múltiple' (incluidos los modelos de regresión simple) es porque son la base de los modelos de un nivel más avanzado que también son lineales.

Hablando matemáticamente, siempre que pueda probar que una cierta aproximación lineal es densa en un espacio de Hilbert, podrá usar la aproximación para representar una función en el espacio.

Daeyoung Lim
fuente
2
Exactamente. Nadie más lo mencionó, pero como dice esta respuesta, en general, siempre puede aplicar una transformación a sus variables para linealizar la relación. Además: a) es fácil encontrar máximos globales para regresiones lineales yb) muchos otros modelos, incluidas las redes neuronales, son más fáciles de entender si conoce regresiones logísticas basadas en regresiones lineales.
Ricardo Cruz
7

El modelo al que se refiere, la regresión lineal simple, también conocida como "la línea de mejor ajuste" (aquí estoy confundiendo el modelo y el método de estimación), es ciertamente muy simple (como su nombre lo indica). ¿Por qué estudiarlo? Puedo ver muchas razones. A continuación, supongo que el concepto de variable aleatoria se ha introducido al menos informalmente, porque lo mencionó en su pregunta.

  1. pedagógico: por supuesto, para usted es obvio que las variables aleatorias con valores reales con momentos finitos de segundo orden forman un espacio de Hilbert. Tal vez ya era obvio cuando estudiaste la teoría de la probabilidad. Pero las estadísticas no solo se enseñan a los estudiantes de matemáticas: hay un público más amplio, desde física a economía, ciencias de la computación, ciencias sociales, etc. Estos estudiantes pueden encontrar estadísticas al principio de su curso de estudio. Pueden o no haber sido expuestos al álgebra lineal, e incluso en el primer caso, pueden no haberlo visto desde el punto de vista más abstracto de un curso de matemáticas. Para estos estudiantes, el concepto mismo de aproximar una variable aleatoria por otra variable aleatoria no es tan inmediato. Incluso la propiedad básica del modelo lineal simple, es decir, el hecho de que el error y el predictor son variables aleatorias ortogonales, A veces es sorprendente para ellos. El hecho de que pueda definir un "ángulo" entre variables aleatorias (objetos "desagradables", funciones medibles desde un espacio de probabilidad a un espacio medible) puede ser obvio para usted, pero no necesariamente para un estudiante de primer año. Por lo tanto, si el estudio de los espacios vectoriales comienza con el buen plano euclidiano, ¿no tiene sentido comenzar el estudio de modelos estadísticos con el más simple?
  2. ξ=β0+i=1Nβiηi+ϵξ=i=0Nβiϕ(ηi)+ϵ
  3. práctico : existen numerosas aplicaciones exitosas de regresión lineal simple. La ley de Okun en la economía, la ley de Hooke , la ley de Ohm y la ley de Charles en la física, la relación entre la presión arterial sistólica y la edad en la medicina (no tengo ni idea de si tiene un nombre!), Son ejemplos de regresión lineal simple, con mayor o menor exactitud.
DeltaIV
fuente
4

Otra razón es la forma encantadora en que la regresión da un tratamiento unificado de técnicas como ANOVA. Para mí, el tratamiento habitual 'elemental' de ANOVA parece bastante oscuro, pero un tratamiento basado en la regresión es claro como el cristal. Sospecho que esto tiene mucho que ver con la forma en que los modelos de regresión hacen explícitos algunos supuestos que en los tratamientos 'elementales' son tácitos y no examinados. Además, la claridad conceptual que ofrece una perspectiva tan unificadora se acompaña de beneficios prácticos similares cuando llega el momento de implementar métodos en software estadístico.

Este principio se aplica no solo a ANOVA, sino a extensiones como splines cúbicas restringidas, que en particular abordan su segunda pregunta.

David C. Norris
fuente
3

La popularidad de la regresión lineal se debe en parte a su capacidad de interpretación, es decir, las personas no técnicas pueden comprender los coeficientes de los parámetros con solo un poco de explicación. Esto agrega una gran cantidad de valor en situaciones de negocios, donde los usuarios finales de la producción o las predicciones pueden no tener una comprensión profunda de las matemáticas / estadísticas.

Sí, hay suposiciones y limitaciones con esta técnica (como con todos los enfoques), y puede no proporcionar el mejor ajuste en muchos casos. Pero la regresión lineal es muy robusta y, a menudo, puede funcionar bastante bien incluso cuando se violan los supuestos.

Por estas razones, definitivamente vale la pena estudiarlo.

B. escarcha
fuente
-2

Algo podría no estar directamente relacionado.

Si tienes dos series X y y ese Cov(X,y)=0 0, y si sospechas que hay una relación entre X y y. Podrías hacer una trama entrey y X para examinar su relación.

Zhu Jinxuan
fuente