¿Qué debo verificar para normalidad: datos sin procesar o residuales?

27

Aprendí que debo comprobar la normalidad no en los datos en bruto sino en sus residuos. ¿Debo calcular los residuos y luego hacer la prueba W de Shapiro-Wilk?

¿Los residuos se calculan como: ?Ximean

Consulte esta pregunta anterior para mis datos y el diseño.

Stan
fuente
¿Estás haciendo esto usando software (y si es así, qué software) o estás tratando de hacer los cálculos a mano?
Chris Simokat
@ Chris Simokat: Estoy tratando de hacer esto con R y Statistica ...
Stan
3
Esta pregunta puede ser de interés: qué-si-los-residuos-son-normalmente-distribuidos-pero-y-no es ; También cubre la cuestión de si se requiere normalidad de los datos sin procesar o los residuos.
gung - Restablecer Monica
1
Lo siento, no soy lo suficientemente inteligente con SAS para saber cómo hacerlo automáticamente en diferentes situaciones. Sin embargo, cuando ejecuta una regresión, debe poder guardar los residuos en un conjunto de datos de salida, y luego se puede hacer un diagrama qq.
gung - Restablece a Monica
1
Buena información de Karen Grace-Martin: esto y esto
Stan

Respuestas:

37

¿Por qué debes probar la normalidad?

La suposición estándar en la regresión lineal es que los residuos teóricos son independientes y normalmente distribuidos. Los residuales observados son una estimación de los residuales teóricos, pero no son independientes (hay transformaciones en los residuales que eliminan parte de la dependencia, pero aún dan solo una aproximación de los residuales verdaderos). Por lo tanto, una prueba en los residuos observados no garantiza que los residuos teóricos coincidan.

Si los residuos teóricos no se distribuyen exactamente de manera normal, pero el tamaño de la muestra es lo suficientemente grande, entonces el Teorema del límite central dice que la inferencia habitual (pruebas e intervalos de confianza, pero no necesariamente intervalos de predicción) basada en el supuesto de normalidad seguirá siendo aproximadamente correcta. .

También tenga en cuenta que las pruebas de normalidad son pruebas descartadas, pueden decirle que es poco probable que los datos provengan de una distribución normal. Pero si la prueba no es significativa, eso no significa que los datos provienen de una distribución normal, también podría significar que simplemente no tiene suficiente potencia para ver la diferencia. Los tamaños de muestra más grandes dan más poder para detectar la no normalidad, pero las muestras más grandes y el CLT significan que la no normalidad es menos importante. Entonces, para tamaños de muestra pequeños, la suposición de normalidad es importante, pero las pruebas no tienen sentido, para tamaños de muestra grandes las pruebas pueden ser más precisas, pero la cuestión de la normalidad exacta deja de tener sentido.

Entonces, combinando todo lo anterior, lo que es más importante que una prueba de normalidad exacta es la comprensión de la ciencia detrás de los datos para ver si la población está lo suficientemente cerca de lo normal. Los gráficos como qqplots pueden ser buenos diagnósticos, pero también es necesario comprender la ciencia. Si existe la preocupación de que haya demasiada asimetría o potencial para valores atípicos, entonces hay métodos no paramétricos disponibles que no requieren el supuesto de normalidad.

Greg Snow
fuente
66
Para responder la pregunta en la primera línea: la normalidad aproximada es crucial para aplicar las pruebas F en ANOVA y para crear límites de confianza en torno a las variaciones. (+1) por las buenas ideas.
whuber
44
@whuber, sí, la normalidad aproximada es importante, pero las pruebas prueban la normalidad exacta, no aproximada. Y para tamaños de muestra grandes que se aproximan no tiene que estar muy cerca (donde las pruebas tienen más probabilidades de rechazar). Una buena trama y conocimiento de la ciencia que produjo los datos son mucho más útiles que una prueba formal de normalidad si está justificando el uso de pruebas F (u otra inferencia basada en la normalidad).
Greg Snow
Greg, OK. Hago ajustes de distribución y veo que mis datos son de, digamos, distribución Beta o Gamma y ¿qué debo hacer entonces? ¿ANOVA que asume la ley gaussiana?
Stan
2
(+1) Esto salió bien, excepto al final. No tiene que elegir entre (a) regresión basada en un supuesto de normalidad y (b) procedimientos no paramétricos. Las transformaciones antes de la regresión y / o los modelos lineales generalizados son solo dos alternativas principales. Reconozco que no estás tratando de resumir todo sobre el modelado estadístico, pero la última parte podría amplificarse ligeramente.
Nick Cox
Entonces, al final, en regresión lineal, ¿deberíamos comprobar la normalidad de los datos sin procesar o la normalidad de los residuos?
vasili111
7

Los supuestos gaussianos se refieren a los residuos del modelo. No hay suposiciones necesarias sobre los datos originales. Como ejemplo, la distribución de las ventas diarias de cerveza. ingrese la descripción de la imagen aquíDespués de que un modelo razonable capturara el día de la semana, los efectos de las fiestas / eventos, los cambios de nivel / tendencias de tiempo que obtenemosingrese la descripción de la imagen aquí

IrishStat
fuente
gracias por su respuesta. ¿Quiere decir que podemos transformar nuestros datos en distribución gaussiana ...?
Stan
3
Stan, el papel del modelado es hacer exactamente eso para poder hacer inferencia y probar hipótesis.
IrishStat
6

En primer lugar puede "globo ocular que" el uso de un QQ-plot para tener una idea general de que aquí está cómo generar una en R.

De acuerdo con el manual de R , puede alimentar su vector de datos directamente en la función shapiro.test ().

Si desea calcular los residuos usted mismo, sí, cada residuo se calcula de esa manera sobre su conjunto de observaciones. Puedes ver más sobre esto aquí .

Chris Simokat
fuente
Entonces, hasta donde yo entiendo, los métodos para la Normalidad en realidad verifican la normalidad de los residuos de nuestros datos sin procesar. Lo hacen automáticamente y no debemos calcular los residuos y someterlos a la prueba. Y en el habla cotidiana usualmente cambiamos a "mis datos se distribuyen normalmente", suponiendo que los residuos de mis datos sean "normales". Por favor corrigeme.
stan
66
No estoy de acuerdo con tu último punto. Las personas que dicen que mis datos se distribuyen normalmente generalmente no se refieren a los residuos. Creo que las personas dicen eso porque piensan que cada procedimiento estadístico requiere que todos los datos sean normales.
Glen
@Glen hablando con franqueza (falsamente) pienso lo mismo hasta ahora ... No puedo entender (este es mi problema) si tengo gamma o beta o cualquier información distribuida si debo hacer estadísticas para ellos como son normalmente distribuidos a pesar de su distribución verdadera / natural? ¿Y el hecho de la distribución es solo para indicación? Solo he conocido la distribución gaussiana antes de este sitio ...
Stan