Este problema parece tener la cabeza fea todo el tiempo, y estoy tratando de decapitarlo para mi propia comprensión de las estadísticas (¡y la cordura!).
Los supuestos de los modelos lineales generales (prueba t, ANOVA, regresión, etc.) incluyen el "supuesto de normalidad", pero he descubierto que esto rara vez se describe claramente.
A menudo me encuentro con libros de texto de estadísticas / manuales / etc. simplemente afirmando que la "suposición de normalidad" se aplica a cada grupo (es decir, variables X categóricas), y debemos examinar las desviaciones de la normalidad para cada grupo .
Preguntas :
¿el supuesto se refiere a los valores de Y o los residuos de Y?
para un grupo particular , ¿es posible tener una distribución fuertemente no normal de los valores de Y (por ejemplo, sesgada) PERO una distribución de residuos de Y aproximadamente (o al menos más normal) ?
Otras fuentes describen que la suposición se refiere a los residuos del modelo (en casos donde hay grupos, por ejemplo, pruebas t / ANOVA), y deberíamos examinar las desviaciones de la normalidad de estos residuos (es decir, solo una gráfica / prueba QQ para correr).
¿La normalidad de los residuos para el modelo implica la normalidad de los residuos para los grupos ? En otras palabras, ¿deberíamos simplemente examinar los residuos del modelo (contrario a las instrucciones en muchos textos)?
Para poner esto en un contexto, considere este ejemplo hipotético:
- Quiero comparar la altura del árbol (Y) entre dos poblaciones (X).
- En una población, la distribución de Y está fuertemente sesgada hacia la derecha (es decir, la mayoría de los árboles son cortos, muy pocos altos), mientras que la otra es prácticamente normal.
- La altura es mayor en general en la población distribuida normalmente (lo que sugiere que puede haber una diferencia "real").
- La transformación de los datos no mejora sustancialmente la distribución de la primera población.
En primer lugar, ¿es válido comparar los grupos dados las distribuciones de altura radicalmente diferentes?
¿Cómo me acerco al "supuesto de normalidad" aquí? La altura de recuerdo en una población no se distribuye normalmente. ¿Examino los residuos de ambas poblaciones por separado O los residuos del modelo (prueba t)?
Consulte las preguntas por número en las respuestas, la experiencia me ha demostrado que las personas se pierden o se desvían fácilmente (¡especialmente yo!). Tenga en cuenta que no soy un estadístico; aunque tengo una comprensión razonablemente conceptual (es decir, ¡no técnica!) de las estadísticas.
PD: he buscado en los archivos y he leído los siguientes hilos que no han consolidado mi comprensión:
- Supuesto ANOVA normalidad / distribución normal de residuos
- Normalidad de los residuos frente a los datos de la muestra; ¿Qué pasa con las pruebas t?
- ¿Las pruebas de normalidad son 'esencialmente inútiles'?
- Prueba de normalidad
- Evaluar la normalidad de la distribución.
- ¿Qué pruebas utilizo para confirmar que los residuos se distribuyen normalmente?
- ¿Qué hacer cuando la prueba de Kolmogorov-Smirnov es significativa para los residuos de la prueba paramétrica pero la asimetría y la curtosis parecen normales?
Respuestas:
Un punto que puede ayudar a su comprensión:
Si se distribuye normalmente y y son constantes, entonces también se distribuye normalmente (pero con una media y varianza posiblemente diferentes).a b y = x - ax a b y=x−ab
Dado que los residuos son solo los valores de y menos la media estimada (los residuos estandarizados también se dividen por una estimación del error estándar), entonces, si los valores de y se distribuyen normalmente, los residuales también lo son y viceversa. Entonces, cuando hablamos de teoría o suposiciones, no importa de qué hablemos porque una implica a la otra.
Entonces, para las preguntas esto lleva a:
Otro punto que es importante de entender (pero a menudo se combina en el aprendizaje) es que aquí hay 2 tipos de residuos: los residuos teóricos que son las diferencias entre los valores observados y el modelo teórico verdadero, y los residuos observados que son las diferencias entre los valores observados y las estimaciones del modelo actualmente ajustado. Suponemos que los residuos teóricos son normales. Los residuos observados no son i, i o distribuidos normales (pero tienen una media de 0). Sin embargo, a efectos prácticos, los residuos observados estiman los residuos teóricos y, por lo tanto, siguen siendo útiles para el diagnóstico.
fuente
Las respuestas cortas:
La respuesta más larga:
La suposición es que la variable dependiente (y) está normalmente distribuida pero con diferentes medios para diferentes grupos. Como consecuencia, si traza solo la distribución de y, puede verse fácilmente muy diferente de su curva normal en forma de campana estándar. Los residuos representan la distribución de y con esas diferencias en los medios "filtrados".
Alternativamente, puede observar la distribución de y en cada grupo por separado. Esto también filtra las diferencias de medias entre los grupos. La ventaja es que de esta manera también obtiene información sobre la distribución en cada grupo, que en su caso parece relevante. La desventaja es que cada grupo contiene menos observaciones que el conjunto de datos combinado que obtendría al observar los residuos. Además, no sería capaz de comparar grupos de manera significativa si tiene muchos grupos, por ejemplo, porque ingresó muchas variables predictoras en su modelo o una variable predictiva (cuasi) continua en su modelo. Entonces, si su modelo consta de solo una variable predictiva categórica y el número de observaciones en cada grupo es lo suficientemente grande, entonces puede ser significativo inspeccionar la distribución de y en cada grupo por separado.
fuente
Por definición de supuestos, la variable aleatoria es una combinación lineal de y los residuos, siendo todas las demás cosas constantes. Si no es estocástico, y los términos de error son normales, entonces es normal y también lo son los residuos.X X YY X
X Y
Pregunta 1)e Y ϵ X
Y Y|X−N(Xβ,σ2)
X Y . De hecho, es muy probable que esto suceda. Sin embargo, lo importante es que la distribución de es normal.Y|X
Los supuestos se refieren a dos cosas. Primero, a la normalidad de los términos de error. Segundo, a la linealidad e integridad del modelo. Ambas cosas son necesarias para la inferencia. Pero si se cumplen estos supuestos, entonces tanto los residuos y se distribuyen normalmente y la solución se pueden calcular con bastante facilidad, ya que dependen de los términos de error , dada . Por ejemplo, la distribución de en un modelo OLS normal podría ser . Si su grupo no es normal, esto posiblemente sesgará el incondicional.Y ϵ X Y Y | X - N ( X β , σ 2 ) X Y Y | X
Preguntas 2)Y X
Sí, es posible tener valores sesgados para debido a la . Sin embargo, los residuos serán normales si se cumplen todas las suposiciones (¿de qué otra manera podría hacer intervalos y pruebas de hipótesis?). Para esta parte de su pregunta, hay una respuesta bastante definitiva en este hilo: ¿Qué pasa si los residuos se distribuyen normalmente, pero y no?X
Pregunta 3)
Lo importante para usar modelos lineales que requieren normalidad es que los residuos que no son normales, juntos en un grupo o no, son un indicador importante de que su modelo podría no ajustarse a sus datos.
Si está haciendo ANOVA, entonces, por supuesto, sus residuos generales no tienen que ser normales (o más bien homoscedastic), eso no tendría sentido. Sin embargo, en una regresión, es mejor tener un modelo con termina con residuos normales generales. Si no, sus estimadores de intervalo y las pruebas serán incorrectas. Este puede ser el caso de ciertas autocorrelaciones o un sesgo variable que falta. Si el modelo es 100% correcto (incluyendo tal vez roturas estructurales y ponderación si es necesario), no es descabellado asumir términos de error normales, incluso centrado alrededor de 0. Prácticamente la pregunta a menudo se convierte en: ¿Podemos salirse con la suya si la muestra es lo suficientemente grande? No hay una respuesta definitiva, pero para un enfoque 100% correcto, sí, todos los residuos deben ser normales.
Preguntas 4 y 5)
Depende de lo que quieras decir con la comparación. Dada la suposición de términos de error normales, puede realizar una prueba basada en la suposición de dos distribuciones diferentes. También puede usar la estimación GLS para una regresión para tener en cuenta los diferentes parámetros de distribución: SI tiene el modelo correcto ... y supongo que sus propios grupos funcionan como un indicador / variable binaria.
Entonces, probablemente sería muy difícil razonar que la distribución de los residuos será normal; en consecuencia, si bien puede hacer cosas con sus datos, no se basará en OLS regulares.
Pero depende de lo que quieras hacer con los datos.
Sin embargo, lo importante es que aún no puede sortear los supuestos del modelo lineal que está utilizando. Puede mejorar los problemas asumiendo propiedades de muestra grandes asintóticas, pero si supongo que está pidiendo una respuesta definitiva, eso no es lo que tiene en mente.Y|X
En el caso de tu ejemplo, si tiene datos que pueden explicar la skewedness va a recuperar la normalidad en sus residuos y en . Pero si solo está utilizando indicadores binarios para una regresión, esencialmente está utilizando el modelo incorrecto. De hecho, puede hacer pruebas con esto, pero cuando se trata de regresión, los resultados de su intervalo no serán válidos, esencialmente le faltan datos para un modelo completo.
Creo que un buen enfoque sería analizar el álgebra de los OLS regulares con un enfoque en las distribuciones resultantes.
fuente