Normalidad de la variable dependiente = normalidad de los residuos?

34

Este problema parece tener la cabeza fea todo el tiempo, y estoy tratando de decapitarlo para mi propia comprensión de las estadísticas (¡y la cordura!).

Los supuestos de los modelos lineales generales (prueba t, ANOVA, regresión, etc.) incluyen el "supuesto de normalidad", pero he descubierto que esto rara vez se describe claramente.

A menudo me encuentro con libros de texto de estadísticas / manuales / etc. simplemente afirmando que la "suposición de normalidad" se aplica a cada grupo (es decir, variables X categóricas), y debemos examinar las desviaciones de la normalidad para cada grupo .

Preguntas :

  1. ¿el supuesto se refiere a los valores de Y o los residuos de Y?

  2. para un grupo particular , ¿es posible tener una distribución fuertemente no normal de los valores de Y (por ejemplo, sesgada) PERO una distribución de residuos de Y aproximadamente (o al menos más normal) ?

    Otras fuentes describen que la suposición se refiere a los residuos del modelo (en casos donde hay grupos, por ejemplo, pruebas t / ANOVA), y deberíamos examinar las desviaciones de la normalidad de estos residuos (es decir, solo una gráfica / prueba QQ para correr).

  3. ¿La normalidad de los residuos para el modelo implica la normalidad de los residuos para los grupos ? En otras palabras, ¿deberíamos simplemente examinar los residuos del modelo (contrario a las instrucciones en muchos textos)?

    Para poner esto en un contexto, considere este ejemplo hipotético:

    • Quiero comparar la altura del árbol (Y) entre dos poblaciones (X).
    • En una población, la distribución de Y está fuertemente sesgada hacia la derecha (es decir, la mayoría de los árboles son cortos, muy pocos altos), mientras que la otra es prácticamente normal.
    • La altura es mayor en general en la población distribuida normalmente (lo que sugiere que puede haber una diferencia "real").
    • La transformación de los datos no mejora sustancialmente la distribución de la primera población.
  4. En primer lugar, ¿es válido comparar los grupos dados las distribuciones de altura radicalmente diferentes?

  5. ¿Cómo me acerco al "supuesto de normalidad" aquí? La altura de recuerdo en una población no se distribuye normalmente. ¿Examino los residuos de ambas poblaciones por separado O los residuos del modelo (prueba t)?


Consulte las preguntas por número en las respuestas, la experiencia me ha demostrado que las personas se pierden o se desvían fácilmente (¡especialmente yo!). Tenga en cuenta que no soy un estadístico; aunque tengo una comprensión razonablemente conceptual (es decir, ¡no técnica!) de las estadísticas.

PD: he buscado en los archivos y he leído los siguientes hilos que no han consolidado mi comprensión:

DeanP
fuente
2
" Pregunta 1) ¿la suposición se refiere a los valores de Y o los residuos de Y? " - Estrictamente hablando, tampoco , aunque el segundo es lo que verifica . Lo que se supone normal son los errores no observables o, de manera equivalente, la distribución condicional de Y en cada combinación de predictores. No se supone que la distribución incondicional de Y sea normal.
Glen_b -Reinstale a Monica
1
+1 Gracias por hacer el esfuerzo de organizar y consolidar algunos de los (muchos) hilos en los que surge este problema; Definitivamente es una pregunta frecuente.
whuber
Solo quiero agradecerle por esta pregunta. Tanto para el tema que aborda como qué tan bien organizado y vinculado está. Sé que lo preguntaste hace mucho tiempo, ¡pero es una muy buena pregunta!
hmmmm

Respuestas:

14

Un punto que puede ayudar a su comprensión:

Si se distribuye normalmente y y son constantes, entonces también se distribuye normalmente (pero con una media y varianza posiblemente diferentes).a b y = x - axaby=xab

Dado que los residuos son solo los valores de y menos la media estimada (los residuos estandarizados también se dividen por una estimación del error estándar), entonces, si los valores de y se distribuyen normalmente, los residuales también lo son y viceversa. Entonces, cuando hablamos de teoría o suposiciones, no importa de qué hablemos porque una implica a la otra.

Entonces, para las preguntas esto lleva a:

  1. si, ambos
  2. No, (sin embargo, los valores individuales de y vendrán de normales con diferentes medios que pueden hacer que se vean no normales si se agrupan)
  3. La normalidad de los residuos significa la normalidad de los grupos, sin embargo, puede ser bueno examinar los residuos o los valores y por grupos en algunos casos (la agrupación puede ocultar la no normalidad que es obvia en un grupo) o buscar todos juntos en otros casos (no hay suficientes observaciones por grupo para determinar, pero todos juntos se pueden ver).
  4. Esto depende de lo que quiere decir con comparar, qué tan grande es el tamaño de su muestra y sus sentimientos sobre "Aproximado". La suposición de normalidad solo es necesaria para las pruebas / intervalos en los resultados, puede ajustar el modelo y describir las estimaciones puntuales si hay normalidad o no. El teorema del límite central dice que si el tamaño de la muestra es lo suficientemente grande, las estimaciones serán aproximadamente normales incluso si los residuos no lo son.
  5. Depende de qué pregunta está tratando de responder y qué tan "aproximado" está contento.

Otro punto que es importante de entender (pero a menudo se combina en el aprendizaje) es que aquí hay 2 tipos de residuos: los residuos teóricos que son las diferencias entre los valores observados y el modelo teórico verdadero, y los residuos observados que son las diferencias entre los valores observados y las estimaciones del modelo actualmente ajustado. Suponemos que los residuos teóricos son normales. Los residuos observados no son i, i o distribuidos normales (pero tienen una media de 0). Sin embargo, a efectos prácticos, los residuos observados estiman los residuos teóricos y, por lo tanto, siguen siendo útiles para el diagnóstico.

Greg Snow
fuente
Para obtener más información sobre errores y residuos, creo que es útil leer este artículo en wiki en.wikipedia.org/wiki/Errors_and_residuals
Lil'Lobster
1
Hola, ¿podría dar más detalles sobre "los residuos son solo los valores y menos la media estimada"? Pensé que los residuos eran ¿ ? ¿Es esto lo mismo de alguna manera? Disculpas si me falta algo que debería ser obvio. yy^
Austin
@Jake, tu ecuación es solo la forma más compacta de decir lo que dije. es los "valores de y" y es "la media estimada" de los valores de y en ese conjunto de predictores (y es "menos"). Y -yy^
Greg Snow
En Q1 (que es algo conocido en la respuesta a Q2): Claramente son los residuos y no las Y, en absoluto. Cuando las covariables difieren entre las observaciones, fácilmente podría tener una distribución marginal bimodal a pesar de que los residuos son normales. Por lo tanto, uno no puede simplemente mirar las Ys, solo los residuos.
Björn
@Bjorn, esta es una buena aclaración. Las variables y son normales, condicionadas a la x, por lo que los valores y brutos son una mezcla de normales y una gráfica de solo los valores y puede no mostrar normalidad aunque se ajusten a la suposición de ser condicional normal en x. Para el diagnóstico generalmente usamos los residuos (porque la parte condicional se ha eliminado principalmente). El supuesto de normalidad (condicional) se refiere tanto a los residuos teóricos como a los valores y.
Greg Snow
7

Las respuestas cortas:

  1. derechos residuales de autor
  2. no
  3. depende, ambos enfoques tienen ventajas y desventajas
  4. ¿Por qué no? Puede tener más sentido comparar medianas en lugar de medios.
  5. por lo que nos ha dicho, la suposición de normalidad probablemente se viola

La respuesta más larga:

La suposición es que la variable dependiente (y) está normalmente distribuida pero con diferentes medios para diferentes grupos. Como consecuencia, si traza solo la distribución de y, puede verse fácilmente muy diferente de su curva normal en forma de campana estándar. Los residuos representan la distribución de y con esas diferencias en los medios "filtrados".

Alternativamente, puede observar la distribución de y en cada grupo por separado. Esto también filtra las diferencias de medias entre los grupos. La ventaja es que de esta manera también obtiene información sobre la distribución en cada grupo, que en su caso parece relevante. La desventaja es que cada grupo contiene menos observaciones que el conjunto de datos combinado que obtendría al observar los residuos. Además, no sería capaz de comparar grupos de manera significativa si tiene muchos grupos, por ejemplo, porque ingresó muchas variables predictoras en su modelo o una variable predictiva (cuasi) continua en su modelo. Entonces, si su modelo consta de solo una variable predictiva categórica y el número de observaciones en cada grupo es lo suficientemente grande, entonces puede ser significativo inspeccionar la distribución de y en cada grupo por separado.

Maarten Buis
fuente
77
Estrictamente, los residuos son solo estimaciones de los errores o perturbaciones desconocidos e incognoscibles, por lo que incluso si la normalidad es correcta en principio, no puede obtener exactamente residuos normales en la práctica. Más importante aún, ¡la normalidad de los errores es la suposición menos importante en estos métodos!
Nick Cox
@NickCox (+1) estuvo de acuerdo en ambos aspectos
Maarten Buis,
1

Por definición de supuestos, la variable aleatoria es una combinación lineal de y los residuos, siendo todas las demás cosas constantes. Si no es estocástico, y los términos de error son normales, entonces es normal y también lo son los residuos.X X YYX
XY

Pregunta 1)
Los supuestos se refieren a dos cosas. Primero, a la normalidad de los términos de error. Segundo, a la linealidad e integridad del modelo. Ambas cosas son necesarias para la inferencia. Pero si se cumplen estos supuestos, entonces tanto los residuos y se distribuyen normalmente y la solución se pueden calcular con bastante facilidad, ya que dependen de los términos de error , dada . Por ejemplo, la distribución de en un modelo OLS normal podría ser . Si su grupo no es normal, esto posiblemente sesgará el incondicional.Y ϵ X Y Y | X - N ( X β , σ 2 ) X Y Y | XeYϵX
YY|XN(Xβ,σ2)
XY. De hecho, es muy probable que esto suceda. Sin embargo, lo importante es que la distribución de es normal.Y|X

Preguntas 2)
Sí, es posible tener valores sesgados para debido a la . Sin embargo, los residuos serán normales si se cumplen todas las suposiciones (¿de qué otra manera podría hacer intervalos y pruebas de hipótesis?). Para esta parte de su pregunta, hay una respuesta bastante definitiva en este hilo: ¿Qué pasa si los residuos se distribuyen normalmente, pero y no?XYX

Pregunta 3)
Lo importante para usar modelos lineales que requieren normalidad es que los residuos que no son normales, juntos en un grupo o no, son un indicador importante de que su modelo podría no ajustarse a sus datos.
Si está haciendo ANOVA, entonces, por supuesto, sus residuos generales no tienen que ser normales (o más bien homoscedastic), eso no tendría sentido. Sin embargo, en una regresión, es mejor tener un modelo con termina con residuos normales generales. Si no, sus estimadores de intervalo y las pruebas serán incorrectas. Este puede ser el caso de ciertas autocorrelaciones o un sesgo variable que falta. Si el modelo es 100% correcto (incluyendo tal vez roturas estructurales y ponderación si es necesario), no es descabellado asumir términos de error normales, incluso centrado alrededor de 0. Prácticamente la pregunta a menudo se convierte en: ¿Podemos salirse con la suya si la muestra es lo suficientemente grande? No hay una respuesta definitiva, pero para un enfoque 100% correcto, sí, todos los residuos deben ser normales.

Preguntas 4 y 5)
Depende de lo que quieras decir con la comparación. Dada la suposición de términos de error normales, puede realizar una prueba basada en la suposición de dos distribuciones diferentes. También puede usar la estimación GLS para una regresión para tener en cuenta los diferentes parámetros de distribución: SI tiene el modelo correcto ... y supongo que sus propios grupos funcionan como un indicador / variable binaria.
Entonces, probablemente sería muy difícil razonar que la distribución de los residuos será normal; en consecuencia, si bien puede hacer cosas con sus datos, no se basará en OLS regulares.
Pero depende de lo que quieras hacer con los datos.

Sin embargo, lo importante es que aún no puede sortear los supuestos del modelo lineal que está utilizando. Puede mejorar los problemas asumiendo propiedades de muestra grandes asintóticas, pero si supongo que está pidiendo una respuesta definitiva, eso no es lo que tiene en mente.
En el caso de tu ejemplo, si tiene datos que pueden explicar la skewedness va a recuperar la normalidad en sus residuos y en . Pero si solo está utilizando indicadores binarios para una regresión, esencialmente está utilizando el modelo incorrecto. De hecho, puede hacer pruebas con esto, pero cuando se trata de regresión, los resultados de su intervalo no serán válidos, esencialmente le faltan datos para un modelo completo.Y|X

Creo que un buen enfoque sería analizar el álgebra de los OLS regulares con un enfoque en las distribuciones resultantes.

IMA
fuente