Leí que estas son las condiciones para usar el modelo de regresión múltiple:
- los residuos del modelo son casi normales
- la variabilidad de los residuos es casi constante
- los residuos son independientes y
- cada variable está relacionada linealmente con el resultado.
¿Cómo son diferentes 1 y 2?
Puedes ver uno aquí a la derecha:
Entonces, el gráfico anterior dice que el residuo que está a 2 desviaciones estándar de distancia está a 10 de Y-hat. Eso significa que los residuos siguen una distribución normal. ¿No puedes inferir 2 de esto? ¿Que la variabilidad de los residuos es casi constante?
Respuestas:
1. Distribución normal de residuos :
no es unacondición de Gauss Markov.ε|X∼N(0,σ2In)
Este gráfico intenta ilustrar la distribución de puntos en la población en azul (con la línea de regresión de la población como una línea cian sólida), superpuesta en un conjunto de datos de muestra en grandes puntos amarillos (con su línea de regresión estimada trazada como una línea amarilla discontinua). Evidentemente, esto es solo para el consumo conceptual, ya que habría infinitos puntos para cada valor de ), por lo que es una discretización iconográfica gráfica del concepto de regresión como la distribución continua de valores alrededor de una media (correspondiente al valor predicho de la variable "independiente") en cada valor dado del regresor, o variable explicativa.X=x
Si ejecutamos diagramas de diagnóstico de R en los datos simulados de "población" obtendríamos ...
La varianza de los residuos es la constante a lo largo de todos los valores deX.
La trama típica sería:
Conceptualmente, la introducción de regresores múltiples o variables explicativas no altera la idea. Encuentro el tutorial práctico del paquete
swirl()
extremadamente útil para comprender cómo la regresión múltiple es realmente un proceso de regresión de las variables dependientes entre sí para llevar adelante la variación residual e inexplicable en el modelo; o más simplemente, una forma vectorial de regresión lineal simple :2) La variabilidad de los residuos es casi constante (Homocedasticidad) :
los problema con la violación de esta condición es:
En esta gráfica, la varianza aumenta con los valores del regresor (variable explicativa), en lugar de permanecer constante. En este caso, los residuos se distribuyen normalmente, pero la variación de esta distribución normal cambia (aumenta) con la variable explicativa.
Observe que la línea de regresión "verdadera" (población) no cambia con respecto a la línea de regresión de población bajo homocedasticidad en el primer gráfico (azul oscuro sólido), pero es intuitivamente claro que las estimaciones serán más inciertas.
Las gráficas de diagnóstico en el conjunto de datos son ...
que corresponde a la distribución de "colas pesadas" , lo que tiene sentido es que debiéramos telescopiar todas las parcelas gaussianas verticales "de lado a lado" en una sola, que conservaría su forma de campana, pero tenía colas muy largas.
Los residuos están muy sesgados y la varianza aumenta con los valores de la variable explicativa.
Estas serían las parcelas de diagnóstico ...
correspondiente a la marcada derecha sesgada.
Para cerrar el ciclo, también veríamos sesgos en un modelo homoskedastic con distribución de errores no gaussiana:
con diagramas de diagnóstico como ...
fuente
No es culpa del OP, pero estoy empezando a cansarme de leer información errónea como esta.
El "modelo de regresión múltiple" es solo una etiqueta que declara que una variable puede expresarse en función de otras variables.
Ni el verdadero término de error ni los residuos del modelo necesitan ser casi nada en particular; si los residuos se ven normales, esto es bueno para posteriores la inferencia estadística .
La variabilidad (varianza) del término de error no necesita ser casi constante: si no lo es, tenemos un modelo con heterocedasticidad que hoy en día es bastante fácil de manejar.
Los residuos no son independientes en ningún caso, ya que cada uno es una función de toda la muestra. Los verdaderos términos de error no necesitan ser independientes; si no lo son, tenemos un modelo con autocorrelación que, aunque es más difícil que la heterocedasticidad, puede tratarse hasta cierto punto.
No es necesario que cada variable esté relacionada linealmente con el resultado. De hecho, la distinción entre regresión "lineal" y "no lineal" no tiene nada que ver con la relación entre las variables, sino con la forma en que los coeficientes desconocidos entran en la relación.
Lo que se podría decir es que si los primeros tres se mantienen y el cuarto se establece correctamente, entonces obtenemos el "Modelo de regresión lineal normal clásico", que es solo una (aunque históricamente la primera) variante de los modelos de regresión múltiple.
fuente
Antoni Parellada tuvo una respuesta perfecta con una bonita ilustración gráfica.
Solo quiero agregar un comentario para resumir la diferencia entre dos declaraciones
fuente
No existe un conjunto único de supuestos de regresión, pero existen varias variaciones. Algunos de estos conjuntos de supuestos son más estrictos, es decir, más estrechos que otros. Además, en la mayoría de los casos no es necesario y, en muchos casos, realmente no se puede suponer que la distribución es normal.
Los supuestos que citó son más estrictos que la mayoría, pero están formulados en un lenguaje innecesariamente laxo. Por ejemplo, ¿qué es exactamente casi ? Además, no son los residuos sobre los que imponemos los supuestos, son errores . Los residuos son estimaciones de errores, que no son observables. Esto me dice que estás citando de una fuente pobre. Tirarlo.
La breve respuesta a su pregunta es que si considera cualquier distribución, por ejemplo, distribución t de Student, para sus errores (voy a usar el término correcto en mi respuesta), entonces puede ver cómo los errores pueden tener una variación "casi constante" sin ser de distribución normal, y cómo tener una varianza "casi constante" no requiere una distribución normal. En otras palabras, no, no puede idear una suposición a partir de otra sin un requisito adicional.
Entonces, cuando agrupamos todos los supuestos de esta manera en una o dos ecuaciones, puede parecer que todos dependen unos de otros, lo cual no es cierto. Voy a demostrar esto a continuación.
Ejemplo 1
Ejemplo 2
fuente
Traté de agregar una nueva dimensión a la discusión y hacerlo más general. Disculpe si era demasiado rudimentario.
Un modelo de regresión es un medio formal de expresar los dos ingredientes esenciales de una relación estadística:
Al postular que:
Fuente: Modelos estadísticos lineales aplicados, KNNL
Llegando a la pregunta
Los supuestos primero y segundo, según lo establecido por usted, son dos partes del mismo supuesto de normalidad con media cero y varianza constante. Creo que la pregunta debería plantearse como cuáles son las implicaciones de los dos supuestos para un modelo de regresión de error normal en lugar de la diferencia entre los dos supuestos. Digo eso porque parece comparar manzanas con naranjas porque estás tratando de encontrar una diferencia entre supuestos sobre la distribución de una dispersión de puntos y supuestos sobre su variabilidad. La variabilidad es una propiedad de una distribución. Por lo tanto, trataré de responder una pregunta más relevante sobre las implicaciones de los dos supuestos.
Bajo el supuesto de normalidad, los estimadores de máxima verosimilitud (MLE) son los mismos que los estimadores de mínimos cuadrados y los MLE disfrutan de la propiedad de ser UMVUE, lo que significa que tienen una varianza mínima entre todos los estimadores.
fuente