En la regresión lineal, se supone que cada valor predicho se ha elegido de una distribución normal de posibles valores. Vea abajo.
Pero, ¿por qué se supone que cada valor predicho proviene de una distribución normal? ¿Cómo utiliza la regresión lineal este supuesto? ¿Qué pasa si los valores posibles no se distribuyen normalmente?
Respuestas:
La regresión lineal por sí sola no necesita la suposición normal (gaussiana), los estimadores pueden calcularse (por mínimos cuadrados lineales) sin necesidad de tal suposición, y tiene perfecto sentido sin ella.
Pero entonces, como estadísticos queremos entender algunas de las propiedades de este método, las respuestas a preguntas como: ¿son los estimadores de mínimos cuadrados óptimos en algún sentido? o podemos hacerlo mejor con algunos estimadores alternativos? Luego, bajo la distribución normal de los términos de error, podemos mostrar que estos estimadores son, de hecho, óptimos, por ejemplo, son "imparciales de la varianza mínima", o la probabilidad máxima. No se puede probar tal cosa sin la suposición normal.
Además, si queremos construir (y analizar propiedades de) intervalos de confianza o pruebas de hipótesis, entonces usamos el supuesto normal. Pero, en cambio, podríamos construir intervalos de confianza por algún otro medio, como bootstrapping. Entonces, no usamos la suposición normal, pero, desafortunadamente, sin eso, podría ser que deberíamos usar otros estimadores que no sean los mínimos cuadrados, ¿tal vez algunos estimadores robustos?
En la práctica, por supuesto, la distribución normal es como mucho una ficción conveniente. Entonces, la pregunta realmente importante es, ¿qué tan cerca de la normalidad debemos estar para afirmar que utilizamos los resultados mencionados anteriormente? ¡Esa es una pregunta mucho más complicada! Los resultados de optimización no son sólidos , por lo que incluso una desviación muy pequeña de la normalidad podría destruir la optimización. Ese es un argumento a favor de métodos robustos. Para otra respuesta a esa pregunta, vea mi respuesta a ¿Por qué deberíamos usar errores t en lugar de errores normales?
Otra pregunta relevante es ¿Por qué la normalidad de los residuos es "apenas importante" con el fin de estimar la línea de regresión?
Esta respuesta condujo a una gran discusión en los comentarios, que nuevamente condujo a mi nueva pregunta: Regresión lineal: ¿alguna distribución no normal que proporcione identidad de OLS y MLE? que ahora finalmente obtuvo (tres) respuestas, dando ejemplos donde las distribuciones no normales conducen a estimadores de mínimos cuadrados.
fuente
Esta discusión ¿Qué pasa si los residuos se distribuyen normalmente, pero y no? ha abordado bien esta pregunta.
En resumen, para un problema de regresión, solo asumimos que la respuesta está condicionada normalmente por el valor de x. No es necesario que las variables independientes o de respuesta sean independientes.
fuente
No hay una razón profunda para ello, y usted es libre de cambiar los supuestos de distribución, pasar a GLM o una regresión sólida. El LM (distribución normal) es popular porque es fácil de calcular, bastante estable y los residuos son en la práctica a menudo más o menos normales.
Como cualquier regresión, el modelo lineal (= regresión con error normal) busca los parámetros que optimizan la probabilidad del supuesto distribucional dado. Vea aquí un ejemplo de un cálculo explícito de la probabilidad de un modelo lineal. Si toma la probabilidad logarítmica de un modelo lineal, resulta ser proporcional a la suma de cuadrados, y la optimización de eso puede calcularse de manera bastante conveniente.
Si desea ajustar un modelo con diferentes distribuciones, los siguientes pasos del libro de texto serían modelos lineales generalizados (GLM), que ofrecen diferentes distribuciones, o modelos lineales generales, que todavía son normales, pero relajan la independencia. Muchas otras opciones son posibles. Si solo desea reducir el efecto de los valores atípicos, podría considerar, por ejemplo, una regresión robusta.
fuente
Después de revisar la pregunta nuevamente, creo que no hay ninguna razón para usar la distribución normal a menos que desee realizar algún tipo de inferencia sobre el parámetro de regresión. Y puede aplicar regresión lineal e ignorar la distribución del término de ruido.
fuente
fuente