Pregunta bastante básica:
¿Qué significa una distribución normal de residuos de una regresión lineal? En términos de, ¿cómo se refleja esto en mis datos originales de la regresión?
Estoy totalmente perplejo, gracias chicos
fuente
Pregunta bastante básica:
¿Qué significa una distribución normal de residuos de una regresión lineal? En términos de, ¿cómo se refleja esto en mis datos originales de la regresión?
Estoy totalmente perplejo, gracias chicos
De hecho, la regresión lineal modela los valores esperados condicionales de su resultado. Eso significa: si conocía los valores verdaderos de los parámetros de regresión (digamos y β 1 ), dado un valor de su predictor X, completándolo en la ecuación E [ Y | X ] = β 0 + β 1 X tendrá se calcula el valor esperado para Y sobre todas las (posibles) observaciones que tienen este valor dado para X .
Sin embargo: realmente no espera que ningún valor para ese valor X sea exactamente igual a la media (condicional). No porque su modelo esté equivocado, sino porque hay algunos efectos que no ha tenido en cuenta (por ejemplo, error de medición). Entonces, estos valores Y para un valor X dado fluctuarán alrededor del valor medio (es decir, geométricamente: alrededor del punto de la línea de regresión para esa X ).
La suposición de normalidad, ahora, dice que la diferencia entre las y su coincidencia E [ Y | X ] sigue una distribución normal con media cero. Esto significa que, si tiene un valor X , puede muestrear un valor Y calculando primero β 0 + β 1 X (es decir, nuevamente E [ Y | X ] , el punto en la línea de regresión), luego muestreando ϵ de esa normal distribución y sumarlos: Y ' = E [ Y | X
En resumen: esta distribución normal representa la variabilidad en su resultado además de la variabilidad explicada por el modelo.
Nota: en la mayoría de los conjuntos de datos, no tiene múltiples valores para una X dada (a menos que su conjunto de predictores sea categórico), pero esta normalidad se aplica a toda la población, no solo a las observaciones en su conjunto de datos.
Nota: He hecho el razonamiento para la regresión lineal con un predictor, pero lo mismo vale para más: simplemente reemplace "línea" con "hiperplano" en lo anterior.
Podría significar mucho o podría no significar nada. Si ajusta un modelo para obtener el R-Squared más alto, podría significar que ha sido tonto. Si ajusta un modelo para ser parsimonioso en que las variables son necesarias y necesarias y se preocupan por identificar valores atípicos, entonces ha hecho un buen trabajo. Eche un vistazo aquí para obtener más información sobre este http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175
fuente
La normalidad de los residuos es una suposición de ejecutar un modelo lineal. Entonces, si sus residuos son normales, significa que su suposición es válida y la inferencia del modelo (intervalos de confianza, predicciones del modelo) también debería ser válida. ¡Es así de simple!
fuente