¿Cómo usa la regresión lineal la distribución normal?

26

En la regresión lineal, se supone que cada valor predicho se ha elegido de una distribución normal de posibles valores. Vea abajo.

Pero, ¿por qué se supone que cada valor predicho proviene de una distribución normal? ¿Cómo utiliza la regresión lineal este supuesto? ¿Qué pasa si los valores posibles no se distribuyen normalmente?

ingrese la descripción de la imagen aquí

luciano
fuente
2
Solo los errores siguen una distribución normal (lo que implica que la probabilidad condicional de Y dado X también es normal). Esto es probablemente tradicional debido a razones relacionadas con el teorema del límite central. Pero puede reemplazar lo normal con cualquier distribución de probabilidad simétrica y obtener las mismas estimaciones de coeficientes a través de mínimos cuadrados. Sin embargo, lo que sería diferente sería el error estándar residual, la bondad de ajuste y la forma en que valida los supuestos.
Kian
44
Los supuestos normales entran principalmente en inferencia: pruebas de hipótesis, IC, IP. Si hace suposiciones diferentes, serán diferentes, al menos en muestras pequeñas.
Glen_b -Reinstate Monica
77
Por cierto, para la regresión lineal ordinaria, su diagrama debe dibujar las curvas normales verticalmente, no diagonalmente.
Glen_b -Reinstate Monica el

Respuestas:

29

La regresión lineal por sí sola no necesita la suposición normal (gaussiana), los estimadores pueden calcularse (por mínimos cuadrados lineales) sin necesidad de tal suposición, y tiene perfecto sentido sin ella.

Pero entonces, como estadísticos queremos entender algunas de las propiedades de este método, las respuestas a preguntas como: ¿son los estimadores de mínimos cuadrados óptimos en algún sentido? o podemos hacerlo mejor con algunos estimadores alternativos? Luego, bajo la distribución normal de los términos de error, podemos mostrar que estos estimadores son, de hecho, óptimos, por ejemplo, son "imparciales de la varianza mínima", o la probabilidad máxima. No se puede probar tal cosa sin la suposición normal.

Además, si queremos construir (y analizar propiedades de) intervalos de confianza o pruebas de hipótesis, entonces usamos el supuesto normal. Pero, en cambio, podríamos construir intervalos de confianza por algún otro medio, como bootstrapping. Entonces, no usamos la suposición normal, pero, desafortunadamente, sin eso, podría ser que deberíamos usar otros estimadores que no sean los mínimos cuadrados, ¿tal vez algunos estimadores robustos?

En la práctica, por supuesto, la distribución normal es como mucho una ficción conveniente. Entonces, la pregunta realmente importante es, ¿qué tan cerca de la normalidad debemos estar para afirmar que utilizamos los resultados mencionados anteriormente? ¡Esa es una pregunta mucho más complicada! Los resultados de optimización no son sólidos , por lo que incluso una desviación muy pequeña de la normalidad podría destruir la optimización. Ese es un argumento a favor de métodos robustos. Para otra respuesta a esa pregunta, vea mi respuesta a ¿Por qué deberíamos usar errores t en lugar de errores normales?

Otra pregunta relevante es ¿Por qué la normalidad de los residuos es "apenas importante" con el fin de estimar la línea de regresión?

 EDIT

Esta respuesta condujo a una gran discusión en los comentarios, que nuevamente condujo a mi nueva pregunta: Regresión lineal: ¿alguna distribución no normal que proporcione identidad de OLS y MLE? que ahora finalmente obtuvo (tres) respuestas, dando ejemplos donde las distribuciones no normales conducen a estimadores de mínimos cuadrados.

kjetil b halvorsen
fuente
El error de mínimos cuadrados es equivalente a una suposición normal.
Neil G
44
No hay tal contradicción. Por ejemplo, el teorema de Gauss-Markov dice que los mínimos cuadrados lineales son óptimos (en el sentido de menor varianza) entre todos los estimadores lineales, sin necesidad de suposiciones de distribución (aparte de la varianza existente). ¡Los mínimos cuadrados son un procedimiento numérico que se puede definir independientemente de cualquier modelo probabilístico! El modelo probabilístico se utiliza para analizar este procedimiento desde una perspectiva estadística.
kjetil b halvorsen
2
@NeilG Ciertamente, MLE para lo normal es mínimos cuadrados, pero eso no implica mínimos cuadrados debe implicar una suposición de normalidad. Por otro lado, las grandes desviaciones de la normalidad pueden hacer que los mínimos cuadrados sean una mala elección (cuando todos los estimadores lineales son malos).
Glen_b -Reinstate Monica
1
@NeilG Lo que dije allí no implica de ninguna manera la equivalencia de LS y la normalidad, pero usted dice explícitamente que son equivalentes, por lo que realmente no creo que nuestras dos declaraciones sean casi tautológicas.
Glen_b -Reinstate Monica
1
@Neil ¿Puede mostrar cómo su declaración realmente implica lo que dije? Realmente no lo veo.
Glen_b -Reinstate Monica
3

Esta discusión ¿Qué pasa si los residuos se distribuyen normalmente, pero y no? ha abordado bien esta pregunta.

En resumen, para un problema de regresión, solo asumimos que la respuesta está condicionada normalmente por el valor de x. No es necesario que las variables independientes o de respuesta sean independientes.

enaJ
fuente
1
  1. Pero, ¿por qué se supone que cada valor predicho proviene de una distribución normal?

No hay una razón profunda para ello, y usted es libre de cambiar los supuestos de distribución, pasar a GLM o una regresión sólida. El LM (distribución normal) es popular porque es fácil de calcular, bastante estable y los residuos son en la práctica a menudo más o menos normales.

  1. ¿Cómo utiliza la regresión lineal este supuesto?

Como cualquier regresión, el modelo lineal (= regresión con error normal) busca los parámetros que optimizan la probabilidad del supuesto distribucional dado. Vea aquí un ejemplo de un cálculo explícito de la probabilidad de un modelo lineal. Si toma la probabilidad logarítmica de un modelo lineal, resulta ser proporcional a la suma de cuadrados, y la optimización de eso puede calcularse de manera bastante conveniente.

  1. ¿Qué pasa si los valores posibles no se distribuyen normalmente?

Si desea ajustar un modelo con diferentes distribuciones, los siguientes pasos del libro de texto serían modelos lineales generalizados (GLM), que ofrecen diferentes distribuciones, o modelos lineales generales, que todavía son normales, pero relajan la independencia. Muchas otras opciones son posibles. Si solo desea reducir el efecto de los valores atípicos, podría considerar, por ejemplo, una regresión robusta.

Florian Hartig
fuente
0

Después de revisar la pregunta nuevamente, creo que no hay ninguna razón para usar la distribución normal a menos que desee realizar algún tipo de inferencia sobre el parámetro de regresión. Y puede aplicar regresión lineal e ignorar la distribución del término de ruido.

Yu Zhang
fuente
2
No tiene mucho sentido para mí.
SmallChess
0

(xi,yi)y=βx+cβi(yiiβxic)2ηi=yi(βxi+c)ββββes cero Entonces, las estadísticas surgen como información sobre cuán precisa es la estimación puntualβ. ¿Qué hacer en caso de que uno no tenga propiedades estadísticas del término de error? Con disculpas a "The Graduate" - una palabra de arranque.

meh
fuente