Supuestos de regresión múltiple: ¿en qué se diferencia el supuesto de normalidad del supuesto de varianza constante?

20

Leí que estas son las condiciones para usar el modelo de regresión múltiple:

  1. los residuos del modelo son casi normales
  2. la variabilidad de los residuos es casi constante
  3. los residuos son independientes y
  4. cada variable está relacionada linealmente con el resultado.

¿Cómo son diferentes 1 y 2?

Puedes ver uno aquí a la derecha:

ingrese la descripción de la imagen aquí

Entonces, el gráfico anterior dice que el residuo que está a 2 desviaciones estándar de distancia está a 10 de Y-hat. Eso significa que los residuos siguen una distribución normal. ¿No puedes inferir 2 de esto? ¿Que la variabilidad de los residuos es casi constante?

Jwan622
fuente
77
Yo diría que el orden de esos es incorrecto. En orden de importancia, diría 4, 3, 2, 1. De esa manera, cada suposición adicional permite que el modelo se use para resolver un conjunto más amplio de problemas, en oposición al orden en su pregunta, donde la suposición más restrictiva es primero.
Matthew Drury el
2
Estas suposiciones son necesarias para las estadísticas inferenciales. No se hacen suposiciones para minimizar la suma de los errores al cuadrado.
David Lane,
1
Creo que quise decir 1, 3, 2, 4. 1 debe cumplirse al menos aproximadamente para que el modelo sea útil durante mucho tiempo, 3 es necesario para que el modelo sea consistente, es decir, converja a algo estable a medida que obtiene más datos , 2 es necesario para que la estimación sea eficiente, es decir, no hay otra manera mejor de utilizar los datos para estimar la misma línea, y 4 es necesario, al menos aproximadamente, para ejecutar pruebas de hipótesis en los parámetros estimados.
Matthew Drury el
3
Enlace obligatorio a la publicación de blog de A. Gelman sobre ¿Cuáles son los supuestos clave de la regresión lineal? .
usεr11852 dice Reinstate Monic
2
Proporcione una fuente para su diagrama si no es su propio trabajo.
Nick Cox

Respuestas:

44

1. Distribución normal de residuos :

La condición de normalidad entra en juego cuando intentas obtener intervalos de confianza y / o valores p.

no es unacondición de Gauss Markov.ε|XN(0,σ2In)


ingrese la descripción de la imagen aquí

Este gráfico intenta ilustrar la distribución de puntos en la población en azul (con la línea de regresión de la población como una línea cian sólida), superpuesta en un conjunto de datos de muestra en grandes puntos amarillos (con su línea de regresión estimada trazada como una línea amarilla discontinua). Evidentemente, esto es solo para el consumo conceptual, ya que habría infinitos puntos para cada valor de ), por lo que es una discretización iconográfica gráfica del concepto de regresión como la distribución continua de valores alrededor de una media (correspondiente al valor predicho de la variable "independiente") en cada valor dado del regresor, o variable explicativa.X=x

Si ejecutamos diagramas de diagnóstico de R en los datos simulados de "población" obtendríamos ...

ingrese la descripción de la imagen aquí

La varianza de los residuos es la constante a lo largo de todos los valores de X.

La trama típica sería:

ingrese la descripción de la imagen aquí


Conceptualmente, la introducción de regresores múltiples o variables explicativas no altera la idea. Encuentro el tutorial práctico del paqueteswirl() extremadamente útil para comprender cómo la regresión múltiple es realmente un proceso de regresión de las variables dependientes entre sí para llevar adelante la variación residual e inexplicable en el modelo; o más simplemente, una forma vectorial de regresión lineal simple :

La técnica general es elegir un regresor y reemplazar todas las demás variables por los residuos de sus regresiones contra ese.


2) La variabilidad de los residuos es casi constante (Homocedasticidad) :

E[εi2El |X]=σ2

los problema con la violación de esta condición es:

La heterocedasticidad tiene serias consecuencias para el estimador de MCO. Aunque el estimador de MCO sigue siendo imparcial, el SE estimado es incorrecto. Debido a esto, no se puede confiar en los intervalos de confianza y las pruebas de hipótesis. Además, el estimador OLS ya no es AZUL.


ingrese la descripción de la imagen aquí

En esta gráfica, la varianza aumenta con los valores del regresor (variable explicativa), en lugar de permanecer constante. En este caso, los residuos se distribuyen normalmente, pero la variación de esta distribución normal cambia (aumenta) con la variable explicativa.

Observe que la línea de regresión "verdadera" (población) no cambia con respecto a la línea de regresión de población bajo homocedasticidad en el primer gráfico (azul oscuro sólido), pero es intuitivamente claro que las estimaciones serán más inciertas.

Las gráficas de diagnóstico en el conjunto de datos son ...

ingrese la descripción de la imagen aquí

que corresponde a la distribución de "colas pesadas" , lo que tiene sentido es que debiéramos telescopiar todas las parcelas gaussianas verticales "de lado a lado" en una sola, que conservaría su forma de campana, pero tenía colas muy largas.


@Glen_b "... una cobertura completa de la distinción entre los dos también consideraría homoskedastic-but-not-normal".

ingrese la descripción de la imagen aquí

Los residuos están muy sesgados y la varianza aumenta con los valores de la variable explicativa.

Estas serían las parcelas de diagnóstico ...

ingrese la descripción de la imagen aquí

correspondiente a la marcada derecha sesgada.

Para cerrar el ciclo, también veríamos sesgos en un modelo homoskedastic con distribución de errores no gaussiana:

ingrese la descripción de la imagen aquí

con diagramas de diagnóstico como ...

ingrese la descripción de la imagen aquí

Antoni Parellada
fuente
2
Muchas gracias. Sentí que era necesario para salvar la gran discretización de la población utilizada como herramienta de visualización. Puedo publicar el código, pero dudo porque había cierto grado de matemática creativa :-)
Antoni Parellada
3
La ilustración de la distinción entre errores normales y errores homoscedasticos mostrando una gráfica que satisface a ambos y luego mostrando normal-pero-no-homoscedastic es excelente. Supongo que una cobertura completa de la distinción entre los dos también consideraría homoskedastic-but-not-normal. [No sugiero agregar un ejemplo tal, pero es un tercer brazo útil para las personas que guardan en sus mentes cuando se consideran las suposiciones.]
Glen_b -Reinstate Mónica
7

No es culpa del OP, pero estoy empezando a cansarme de leer información errónea como esta.

Leí que estas son las condiciones para usar el modelo de regresión múltiple:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

El "modelo de regresión múltiple" es solo una etiqueta que declara que una variable puede expresarse en función de otras variables.

Ni el verdadero término de error ni los residuos del modelo necesitan ser casi nada en particular; si los residuos se ven normales, esto es bueno para posteriores la inferencia estadística .

La variabilidad (varianza) del término de error no necesita ser casi constante: si no lo es, tenemos un modelo con heterocedasticidad que hoy en día es bastante fácil de manejar.

Los residuos no son independientes en ningún caso, ya que cada uno es una función de toda la muestra. Los verdaderos términos de error no necesitan ser independientes; si no lo son, tenemos un modelo con autocorrelación que, aunque es más difícil que la heterocedasticidad, puede tratarse hasta cierto punto.

No es necesario que cada variable esté relacionada linealmente con el resultado. De hecho, la distinción entre regresión "lineal" y "no lineal" no tiene nada que ver con la relación entre las variables, sino con la forma en que los coeficientes desconocidos entran en la relación.

Lo que se podría decir es que si los primeros tres se mantienen y el cuarto se establece correctamente, entonces obtenemos el "Modelo de regresión lineal normal clásico", que es solo una (aunque históricamente la primera) variante de los modelos de regresión múltiple.

Alecos Papadopoulos
fuente
3
Aclaraciones menores que pueden ayudar a algunos lectores: con el modelo de regresión lineal, el predictor lineal, (y, por lo tanto, la expectativa de la respuesta) es necesariamente tan lineal en las columnas de X como lo es en β . Lo que a menudo se pasa por alto en los tratamientos más elementales es que las columnas de XXβXβX no son necesariamente lineales en la colección original de variables independientes en el conjunto de datos.
Glen_b -Reinstale a Monica
2
¡Y a la pregunta le falta el supuesto absolutamente fundamental de que la expectativa condicional de los términos de error es cero!
Matthew Gunn
1
@MatthewGunn Bueno, esto abre una discusión muy amplia sobre lo que estamos haciendo con este modelo: si tomamos la visión "determinista / de ingeniería", necesitamos esta suposición para asegurarnos de que la especificación sea de hecho la determinista inquebrantable. Si queremos estimar la función de expectativa condicional con respecto a los regresores específicos , entonces la codición se satisface automáticamente (o al menos su forma más débil, la ortogonalidad).
Alecos Papadopoulos
1
@AlecosPapadopoulos Sí, en cierto sentido, ¡los mínimos cuadrados ordinarios siempre te dan una estimación de algo! Pero puede que no sea lo que quieres. Si el OP simplemente quiere una función de expectativa condicional y lineal con respecto a los regresores específicos, estoy de acuerdo en que la condición se asume automáticamente. Pero si el OP está tratando de estimar algún parámetro, ¡justificar la condición de ortogonalidad es crítico!
Matthew Gunn
@MatthewGunn De hecho, esto es ciertamente así.
Alecos Papadopoulos
3

Antoni Parellada tuvo una respuesta perfecta con una bonita ilustración gráfica.

Solo quiero agregar un comentario para resumir la diferencia entre dos declaraciones

  1. los residuos del modelo son casi normales

  2. la variabilidad de los residuos es casi constante

  • La declaración 1 da la "forma" del residuo es "curva en forma de campana" .
  • La declaración 2 refina la propagación de la "forma" (es constante), en la trama 3. de Antoni Parellada hay 3 curvas en forma de campana, pero son diferentes.
Haitao Du
fuente
1

No existe un conjunto único de supuestos de regresión, pero existen varias variaciones. Algunos de estos conjuntos de supuestos son más estrictos, es decir, más estrechos que otros. Además, en la mayoría de los casos no es necesario y, en muchos casos, realmente no se puede suponer que la distribución es normal.

Los supuestos que citó son más estrictos que la mayoría, pero están formulados en un lenguaje innecesariamente laxo. Por ejemplo, ¿qué es exactamente casi ? Además, no son los residuos sobre los que imponemos los supuestos, son errores . Los residuos son estimaciones de errores, que no son observables. Esto me dice que estás citando de una fuente pobre. Tirarlo.

La breve respuesta a su pregunta es que si considera cualquier distribución, por ejemplo, distribución t de Student, para sus errores (voy a usar el término correcto en mi respuesta), entonces puede ver cómo los errores pueden tener una variación "casi constante" sin ser de distribución normal, y cómo tener una varianza "casi constante" no requiere una distribución normal. En otras palabras, no, no puede idear una suposición a partir de otra sin un requisito adicional.

yi=Xiβ+εiεiN(0,σ2)
  1. N(.)
  2. σεi
  3. NX
  4. y=Xβ

Entonces, cuando agrupamos todos los supuestos de esta manera en una o dos ecuaciones, puede parecer que todos dependen unos de otros, lo cual no es cierto. Voy a demostrar esto a continuación.

Ejemplo 1

yi=Xiβ+εiεitν
ν grados de libertad. Los errores tendrán una variación constante, por supuesto, y no son gaussianos.

Ejemplo 2

yi=Xiβ+εiεiN(0,σ2i)
i
Aksakal
fuente
1

Traté de agregar una nueva dimensión a la discusión y hacerlo más general. Disculpe si era demasiado rudimentario.

Un modelo de regresión es un medio formal de expresar los dos ingredientes esenciales de una relación estadística:

  1. YX
  2. Una dispersión de puntos alrededor de la curva de la relación estadística.

Y

Al postular que:

  1. YX

  2. X

Y (simétrica, sesgada) y de otras maneras.

YX

YXYX en una relación estadística.

Fuente: Modelos estadísticos lineales aplicados, KNNL

YX

Yi=β0 +β1Xi+ϵ

YiXi

β0β1 son parámetros

ϵN(O,σ2)

i

E(Y|X)β0β1σ2β0β1σ2

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

¿Cómo son diferentes 1 y 2?

Llegando a la pregunta

Los supuestos primero y segundo, según lo establecido por usted, son dos partes del mismo supuesto de normalidad con media cero y varianza constante. Creo que la pregunta debería plantearse como cuáles son las implicaciones de los dos supuestos para un modelo de regresión de error normal en lugar de la diferencia entre los dos supuestos. Digo eso porque parece comparar manzanas con naranjas porque estás tratando de encontrar una diferencia entre supuestos sobre la distribución de una dispersión de puntos y supuestos sobre su variabilidad. La variabilidad es una propiedad de una distribución. Por lo tanto, trataré de responder una pregunta más relevante sobre las implicaciones de los dos supuestos.

Bajo el supuesto de normalidad, los estimadores de máxima verosimilitud (MLE) son los mismos que los estimadores de mínimos cuadrados y los MLE disfrutan de la propiedad de ser UMVUE, lo que significa que tienen una varianza mínima entre todos los estimadores.

β0β1y hacer pruebas de significación. t-test se utiliza para verificar la significación estadística que es robusta a pequeñas desviaciones de la normalidad.

ingenuo
fuente
1
Esta es una excelente explicación de la regresión. Pero, ¿cómo responde la pregunta particular en este hilo?
whuber