Quiero saber cómo verificar la normalidad de un conjunto de datos en Excel, solo para verificar que se cumplen los requisitos para usar una prueba t .
Para la cola derecha, ¿es apropiado calcular una media y una desviación estándar, agregar 1, 2 y 3 desviaciones estándar de la media para crear un rango y luego compararlo con el 68/95 / 99.7 normal para la distribución normal estándar después de usar la función norm.dist en excel para probar cada valor de desviación estándar.
¿O hay una mejor manera de probar la normalidad?
normal-distribution
excel
Eudora
fuente
fuente
Respuestas:
Tienes la idea correcta. Esto se puede hacer de manera sistemática, integral y con cálculos relativamente simples. Una gráfica de los resultados se denomina gráfica de probabilidad normal (o, a veces, gráfica de PP). A partir de él, puede ver muchos más detalles de los que aparecen en otras representaciones gráficas, especialmente los histogramas , y con un poco de práctica, incluso puede aprender a determinar formas de volver a expresar sus datos para acercarlos a la normalidad en situaciones donde eso está justificado.
Aquí hay un ejemplo:
Los datos están en la columna
A
(y con nombreData
). El resto es todo cálculo, aunque puede controlar el valor de "rango de bisagra" utilizado para ajustar una línea de referencia al gráfico.Este gráfico es un diagrama de dispersión que compara los datos con los valores que se obtendrían mediante números extraídos independientemente de una distribución Normal estándar. Cuando los puntos se alinean a lo largo de la diagonal, están cerca de Normal; Las salidas horizontales (a lo largo del eje de datos) indican desviaciones de la normalidad. En este ejemplo, los puntos están notablemente cerca de la línea de referencia; la salida más grande ocurre en el valor más alto, que es aproximadamente unidades a la izquierda de la línea. Por lo tanto, vemos de un vistazo que estos datos están muy cerca de la distribución normal, pero tal vez tienen una cola derecha ligeramente "ligera". Esto está perfectamente bien para aplicar una prueba t.1,5
Los valores de comparación en el eje vertical se calculan en dos pasos. Primero, cada valor de datos se clasifica de a , la cantidad de datos (que se muestra en el campo en la celda ). Estos se convierten proporcionalmente a valores en el rango de a . Una buena fórmula para usar es (Consulte http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm para saber de dónde proviene). Luego, estos se convierten en valores normales estándar a través de la función. Estos valores aparecen en la columna. El diagrama de la derecha es un diagrama de dispersión XY de1 norte 0 1 ( rango - 1 / 6 ) / ( n + 2 / 3 ) .0 0 1 ( Rango - 1 / 6 ) / ( n + 2 / 3 ) .
Count
F2
NormSInv
Normal score
Normal Score
en contra de los datos. (En algunas referencias verá la transposición de este gráfico, que tal vez sea más natural, pero Excel prefiere colocar la columna más a la izquierda en el eje horizontal y la columna más a la derecha en el eje vertical, por lo que he dejado que haga lo que prefiere. )(Como puede ver, simulé estos datos con sorteos aleatorios independientes de una distribución Normal con media y desviación estándar Por lo tanto, no sorprende que la gráfica de probabilidad se vea tan bien). Realmente solo hay dos fórmulas para escribir, que se propaga hacia abajo para que coincida con los datos: aparecen en las celdas y se basan en el valor calculado en la celda . Eso es todo lo que hay que hacer, aparte de la trama.5 5 2
B2:C2
Count
F2
El resto de esta hoja no es necesaria, pero es útil para juzgar la trama: proporciona una estimación sólida de una línea de referencia. Esto se hace seleccionando dos puntos igualmente lejos de la izquierda y derecha de la trama y conectándolos con una línea. En el ejemplo estos puntos son la tercera más baja y tercero más alto, según lo determinado por la en la célula, . Como beneficio adicional, su pendiente e intersección son estimaciones robustas de la desviación estándar y la media de los datos, respectivamente.3
Hinge Rank
F3
Para trazar la línea de referencia, se calculan dos puntos extremos y se agregan a la trama: su cálculo se produce en columnas
I:J
, etiquetadasX
yY
.fuente
Puede trazar un histograma utilizando el paquete de herramientas de análisis de datos en Excel . Es más probable que los enfoques gráficos comuniquen el grado de no normalidad, que generalmente es más relevante para las pruebas de suposición (consulte esta discusión sobre la normalidad ).
El paquete de herramientas de análisis de datos en Excel también le dará asimetría y curtosis si solicita estadísticas descriptivas y elige la opción "estadísticas de resumen". Por ejemplo, podría considerar que los valores de asimetría anteriores más o menos uno son una forma de no normalidad sustantiva.
Dicho esto, la suposición con las pruebas t es que los residuos se distribuyen normalmente y no la variable. Además, también son bastante robustos, de modo que incluso con cantidades bastante grandes de no normalidad, los valores p siguen siendo bastante válidos.
fuente
Esta pregunta también linda con la teoría de las estadísticas: las pruebas de normalidad con datos limitados pueden ser cuestionables (aunque todos lo hemos hecho de vez en cuando).
Como alternativa, puede observar curtosis y coeficientes de asimetría. De Hahn y Shapiro: Modelos estadísticos en ingeniería , se proporcionan algunos antecedentes sobre las propiedades Beta1 y Beta2 (páginas 42 a 49) y la Fig. 6-1 de la página 197. Se puede encontrar una teoría adicional detrás de esto en Wikipedia (ver Distribución de Pearson).
Básicamente necesita calcular las llamadas propiedades Beta1 y Beta2. Un Beta1 = 0 y Beta2 = 3 sugiere que el conjunto de datos se acerca a la normalidad. Esta es una prueba aproximada, pero con datos limitados se podría argumentar que cualquier prueba podría considerarse como aproximada.
Beta1 está relacionado con los momentos 2 y 3, o varianza y asimetría , respectivamente. En Excel, estos son VAR y SKEW. Donde ... es su matriz de datos, la fórmula es:
Beta2 está relacionado con los momentos 2 y 4, o la varianza y curtosis , respectivamente. En Excel, estos son VAR y KURT. Donde ... es su matriz de datos, la fórmula es:
Luego puede verificarlos con los valores de 0 y 3, respectivamente. Esto tiene la ventaja de identificar potencialmente otras distribuciones (incluidas las distribuciones Pearson I, I (U), I (J), II, II (U), III, IV, V, VI, VII). Por ejemplo, muchas de las distribuciones comúnmente utilizadas como Uniforme, Normal, t de Student, Beta, Gamma, Exponencial y Log-Normal se pueden indicar a partir de estas propiedades:
Estos se ilustran en Hahn y Shapiro Fig. 6-1.
De acuerdo, esta es una prueba muy difícil (con algunos problemas), pero es posible que desee considerarla como una verificación preliminar antes de pasar a un método más riguroso.
También hay mecanismos de ajuste para el cálculo de Beta1 y Beta2 donde los datos son limitados, pero eso está más allá de esta publicación.
fuente