¿Qué significa tener "varianza constante" en el término de error? A mi entender, tenemos datos con una variable dependiente y una variable independiente. La varianza constante es uno de los supuestos de la regresión lineal. Me pregunto qué significa la homocedasticidad. Dado que incluso si tengo 500 filas, tendría un solo valor de varianza que obviamente es constante. ¿Con qué variable debo comparar la varianza?
53
Este es un lugar donde he encontrado que mirar algunas fórmulas ayuda, incluso para personas con cierta ansiedad matemática (no estoy sugiriendo que lo hagas, necesariamente). El modelo de regresión lineal simple es este: Lo que es importante tener en cuenta aquí es que este modelo explícitamente Una vez que haya estimado la información significativa en los datos (que es " ") no queda más que ruido blanco. Además, los errores se distribuyen como Normal con una varianza de .
Es importante darse cuenta de que no es una variable (aunque en álgebra de secundaria, lo llamaríamos así). No varía varía. varía. El término de error, , varía al azar ; es decir, es una variable aleatoria . Sin embargo, los parámetros ( son marcadores de posición para valores que no conocemos, no varían. En cambio, son constantes desconocidas . El resultado de este hecho para esta discusión es que no importa qué es (es decir, qué valor está conectado allí),σ2ε X Y ε β0, β1, σ2ε) X σ2ε sigue siendo el mismo. En otras palabras, la varianza de los errores / residuos es constante. En aras del contraste (y quizás una mayor claridad), considere este modelo:
En este caso, conectamos un valor para (comenzando en la tercera línea) , pasarla a través de la función y obtener la varianza del error que se obtiene en ese valor exacto de . Luego nos movemos por el resto de la ecuación como de costumbre.
X f ( X ) X
La discusión anterior debería ayudar a comprender la naturaleza del supuesto; la pregunta también pregunta cómo evaluarla . Básicamente hay dos enfoques: pruebas formales de hipótesis y examen de parcelas. Las pruebas de heteroscedasticidad se pueden usar si tiene datos experimentales (es decir, que solo ocurren a valores fijos de ) o un ANOVA. Discuto algunas de estas pruebas aquí: ¿Por qué la prueba de Levene de igualdad de varianzas en lugar de la relación FX . Sin embargo, tiendo a pensar que mirar parcelas es lo mejor. @Penquin_Knight ha hecho un buen trabajo al mostrar cómo se ve la variación constante al trazar los residuos de un modelo donde se obtiene la homocedasticidad frente a los valores ajustados. La heterocedasticidad también puede detectarse en un gráfico de los datos sin procesar, o en un gráfico de ubicación de escala (también llamado nivel de dispersión). R convenientemente traza este último para usted con una llamada a
plot.lm(model, which=2)
; es la raíz cuadrada de los valores absolutos de los residuos contra los valores ajustados, con una curva de baja superposición útil. Desea que el ajuste lowess sea plano, no inclinado.Considere las gráficas a continuación, que comparan cómo podrían verse los datos homoscedastic vs.heteroscedastic en estos tres tipos diferentes de figuras. Tenga en cuenta la forma del embudo para las dos parcelas heteroscedásticas superiores, y la línea de pendiente inferior ascendente en la última.
Para completar, aquí está el código que utilicé para generar estos datos:
fuente