Dadas dos variables aleatorias y η podemos calcular su "coeficiente de correlación" c , y formar la línea de mejor ajuste entre estas dos variables aleatorias. Mi pregunta es por qué
1) Hay variables aleatorias, y η que dependen de la peor manera posible, es decir, ξ = f ( η ) y, a pesar de esto, c = 0 . Si uno solo piensa en una regresión lineal, entonces estaría totalmente cegado a esto.
2) ¿Por qué lineal específicamente? Existen otros tipos de relaciones que pueden existir entre variables aleatorias. ¿Por qué elegir ese de todos los demás?
regression
Nicolas Bourbaki
fuente
fuente
Respuestas:
Estoy de acuerdo en que no todas las relaciones son lineales en sí mismas, pero muchas relaciones pueden aproximarse linealmente. Hemos visto muchos casos de este tipo en matemáticas, como la serie de Taylor o la serie de Fourier, etc. El punto clave aquí es, dijo geomatt22 en el comentario, que en general puede transformar los datos no lineales y aplicar algún tipo de transformación con funciones básicas y linealizar el relación. La razón por la que las universidades solo abordan los 'modelos de regresión lineal múltiple' (incluidos los modelos de regresión simple) es porque son la base de los modelos de un nivel más avanzado que también son lineales.
Hablando matemáticamente, siempre que pueda probar que una cierta aproximación lineal es densa en un espacio de Hilbert, podrá usar la aproximación para representar una función en el espacio.
fuente
El modelo al que se refiere, la regresión lineal simple, también conocida como "la línea de mejor ajuste" (aquí estoy confundiendo el modelo y el método de estimación), es ciertamente muy simple (como su nombre lo indica). ¿Por qué estudiarlo? Puedo ver muchas razones. A continuación, supongo que el concepto de variable aleatoria se ha introducido al menos informalmente, porque lo mencionó en su pregunta.
fuente
Otra razón es la forma encantadora en que la regresión da un tratamiento unificado de técnicas como ANOVA. Para mí, el tratamiento habitual 'elemental' de ANOVA parece bastante oscuro, pero un tratamiento basado en la regresión es claro como el cristal. Sospecho que esto tiene mucho que ver con la forma en que los modelos de regresión hacen explícitos algunos supuestos que en los tratamientos 'elementales' son tácitos y no examinados. Además, la claridad conceptual que ofrece una perspectiva tan unificadora se acompaña de beneficios prácticos similares cuando llega el momento de implementar métodos en software estadístico.
Este principio se aplica no solo a ANOVA, sino a extensiones como splines cúbicas restringidas, que en particular abordan su segunda pregunta.
fuente
La popularidad de la regresión lineal se debe en parte a su capacidad de interpretación, es decir, las personas no técnicas pueden comprender los coeficientes de los parámetros con solo un poco de explicación. Esto agrega una gran cantidad de valor en situaciones de negocios, donde los usuarios finales de la producción o las predicciones pueden no tener una comprensión profunda de las matemáticas / estadísticas.
Sí, hay suposiciones y limitaciones con esta técnica (como con todos los enfoques), y puede no proporcionar el mejor ajuste en muchos casos. Pero la regresión lineal es muy robusta y, a menudo, puede funcionar bastante bien incluso cuando se violan los supuestos.
Por estas razones, definitivamente vale la pena estudiarlo.
fuente
Algo podría no estar directamente relacionado.
Si tienes dos seriesX y y ese c o v ( x , y) = 0 , y si sospechas que hay una relación entre X y y . Podrías hacer una trama entrey y X para examinar su relación.
fuente