He estado en un debate con mi profesor de estadística de nivel de posgrado sobre "distribuciones normales". Sostengo que para obtener realmente una distribución normal, uno debe tener media = mediana = modo, todos los datos deben estar contenidos debajo de la curva de campana, y perfectamente simétricos alrededor de la media. Por lo tanto, técnicamente, prácticamente NO hay distribuciones normales en estudios reales, y deberíamos llamarlos de otra manera, tal vez "casi normal".
Ella dice que soy demasiado exigente, y si la asimetría / curtosis es inferior a 1.0, es una distribución normal y saca puntos en un examen. El conjunto de datos es el número total de caídas / año en una muestra aleatoria de 52 hogares de ancianos, que es una muestra aleatoria de una población más grande. Alguna idea?
Problema:
PREGUNTA: 3. Calcule las medidas de asimetría y curtosis para estos datos. Incluya un histograma con una curva normal. Discute tus hallazgos. ¿Los datos se distribuyen normalmente?
Statistics Number of falls N Valid 52 Missing 0 Mean 11.23 Median 11.50 Mode 4a
a. Existen múltiples modos. Se muestra el valor más pequeño.
Number of falls N Valid 52 Missing 0 Skewness .114 Std. Error of Skewness .330 Kurtosis -.961 Std. Error of Kurtosis .650
Mi respuesta:
Los datos son platykurtic y solo tienen un ligero sesgo positivo, y NO es una distribución normal porque la media, la mediana y la moda no son iguales y los datos no se distribuyen uniformemente alrededor de la media. En realidad, prácticamente ningún dato es una distribución normal perfecta, aunque podemos analizar "distribuciones aproximadamente normales" como la altura, el peso, la temperatura o la longitud del dedo anular adulto en grandes grupos de población.
Respuesta del profesor:
Tienes razón en que no hay una distribución perfectamente normal. Pero, no estamos buscando la perfección. Necesitamos mirar datos además del histograma y las medidas de tendencia central. ¿Qué le dicen las estadísticas de asimetría y curtosis sobre la distribución? Debido a que ambos están entre los valores críticos de -1 y +1, estos datos se consideran distribuidos normalmente.
fuente
Respuestas:
Un problema con su discusión con el profesor es uno de terminología, hay un malentendido que se interpone en el camino de transmitir una idea potencialmente útil. En diferentes lugares, ambos cometen errores.
Entonces, lo primero que debe abordar: es importante tener muy claro qué es una distribución .
Una distribución normal es un objeto matemático específico, que podría considerar como modelo para una población infinita de valores. (Ninguna población finita puede tener una distribución continua).
En términos generales, lo que hace esta distribución (una vez que especifica los parámetros) es definir (a través de una expresión algebraica) la proporción de los valores de la población que se encuentra dentro de cualquier intervalo dado en la línea real. Un poco menos flexible, define la probabilidad de que un solo valor de esa población se encuentre en cualquier intervalo dado.
Una muestra observada realmente no tiene una distribución normal; una muestra podría (potencialmente) extraerse de una distribución normal, si existiera una. Si observa el cdf empírico de la muestra, es discreto. Si lo agrupa (como en un histograma) la muestra tiene una "distribución de frecuencia", pero esas no son distribuciones normales. La distribución puede decirnos algunas cosas (en un sentido probabilístico) sobre una muestra aleatoria de la población, y una muestra también puede decirnos algunas cosas sobre la población.
Una interpretación razonable de una frase como "muestra distribuida normalmente" * es "una muestra aleatoria de una población distribuida normalmente".
* (Por lo general, trato de evitar decirlo yo mismo, por razones que con suerte se aclaran lo suficiente aquí; por lo general, me limito a la segunda clase de expresión).
Habiendo definido los términos (aunque todavía un poco flojo), veamos ahora la pregunta en detalle. Voy a abordar piezas específicas de la pregunta.
Esta es ciertamente una condición en la distribución de probabilidad normal, aunque no es un requisito en una muestra extraída de una distribución normal; las muestras pueden ser asimétricas, pueden tener una media diferente de la mediana, etc. [Sin embargo, podemos tener una idea de cuán separados podríamos esperar razonablemente que estén si la muestra realmente proviene de una población normal].
No estoy seguro de lo que significa "contenido debajo" en este sentido.
No; estás hablando de los datos aquí, y una muestra de una población normal (definitivamente simétrica) no sería en sí misma perfectamente simétrica.
Estoy de acuerdo con su conclusión, pero el razonamiento no es correcto; no es una consecuencia del hecho de que los datos no son perfectamente simétricos (etc.); Es el hecho de que las poblaciones en sí mismas no son perfectamente normales .
Si ella dijo esto de esa manera, definitivamente está equivocada.
Una asimetría de la muestra puede estar mucho más cerca de 0 que eso (tomando "menos de" para significar en magnitud absoluta no un valor real), y el exceso de curtosis de la muestra también puede estar mucho más cerca de 0 que eso (podrían incluso, ya sea por casualidad o construcción, potencialmente puede ser casi exactamente cero), y sin embargo, la distribución de la que se extrajo la muestra puede ser claramente no normal.
Podemos ir más allá, incluso si supiéramos por arte de magia que la asimetría de la población y la curtosis son exactamente las de una persona normal, todavía no nos diría por sí mismas que la población era normal, ni siquiera algo cercano a lo normal.
La distribución poblacional de los recuentos nunca es normal. Los recuentos son discretos y no negativos, las distribuciones normales son continuas y sobre toda la línea real.
Pero estamos realmente centrados en el tema equivocado aquí. Los modelos de probabilidad son solo eso, modelos . No confundamos nuestros modelos con los reales .
El problema no es "¿son los datos en sí mismos normales?" (no pueden ser), ni siquiera "¿es normal la población de la que se extrajeron los datos?" (este casi nunca será el caso).
Una pregunta más útil para discutir es "¿hasta qué punto se vería afectada mi inferencia si tratara a la población como distribuida normalmente?"
También es una pregunta mucho más difícil de responder bien, y puede requerir mucho más trabajo que mirar algunos diagnósticos simples.
Las estadísticas de muestra que mostró no son particularmente inconsistentes con la normalidad (podría ver estadísticas como esa o "peor", no muy raramente si tuviera muestras aleatorias de ese tamaño de poblaciones normales), pero eso no significa en sí mismo que la población real de la cual se extrajo la muestra, automáticamente se "acerca lo suficiente" a la normalidad para algún propósito en particular. Sería importante considerar el propósito (qué preguntas está respondiendo), y la solidez de los métodos empleados para ello, e incluso entonces aún no podemos estar seguros de que sea "lo suficientemente bueno"; a veces puede ser mejor simplemente no asumir lo que no tenemos buenas razones para asumir a priori (por ejemplo, en base a la experiencia con conjuntos de datos similares).
Los datos, incluso los datos extraídos de una población normal, nunca tienen exactamente las propiedades de la población; De esos números por sí solos no tiene una buena base para concluir que la población no es normal aquí.
Por otro lado, tampoco tenemos una base razonablemente sólida para decir que está "suficientemente cerca" de lo normal: ni siquiera hemos considerado el propósito de asumir la normalidad, por lo que no sabemos a qué características de distribución podría ser sensible.
Por ejemplo, si tuviera dos muestras para una medición limitada, sabía que no sería muy discreto (no solo tomaría unos pocos valores distintos) y razonablemente cercano a simétrico, podría estar relativamente contento de usar una muestra de dos prueba t con un tamaño de muestra no tan pequeño; es moderadamente robusto a desviaciones leves de los supuestos (algo robusto a nivel, no tan robusto a la potencia). Pero sería mucho más cauteloso al asumir la normalidad causal cuando se prueba la igualdad de propagación, por ejemplo, porque la mejor prueba bajo esa suposición es bastante sensible a la suposición.
Si ese es realmente el criterio por el cual uno decide usar un modelo de distribución normal, entonces a veces lo llevará a análisis bastante pobres.
Los valores de esas estadísticas nos dan algunas pistas sobre la población de la que se extrajo la muestra, pero eso no es lo mismo que sugerir que sus valores son de alguna manera una 'guía segura' para elegir un análisis.
Ahora, para abordar el problema subyacente con una versión mejor redactada de una pregunta como la que tenía:
Todo el proceso de mirar una muestra para elegir un modelo está plagado de problemas, ¡esto altera las propiedades de cualquier elección de análisis posterior en función de lo que vio! por ejemplo, para una prueba de hipótesis, sus niveles de significancia, valores p y potencia no son lo que usted elegiría / calcularía , porque esos cálculos se basan en que el análisis no se basa en los datos.
Véase, por ejemplo, Gelman y Loken (2014), " The Statistical Crisis in Science ", American Scientist , Volumen 102, Número 6, p 460 (DOI: 10.1511 / 2014.111.460) que analiza problemas con dicho análisis dependiente de los datos.
fuente
Te estás perdiendo el punto y probablemente también estés siendo "difícil", lo cual no es apreciado en la industria. Ella le muestra un ejemplo de juguete, para entrenarlo en la evaluación de la normalidad de un conjunto de datos, es decir si el conjunto de datos proviene de una distribución normal . Mirar los momentos de distribución es una forma de verificar la normalidad, por ejemplo, la prueba de Jarque Bera se basa en dicha evaluación.
Sí, la distribución normal es perfectamente simétrica. Sin embargo, si extrae una muestra de una distribución normal verdadera, es probable que esa muestra no sea perfectamente simétrica. Este es el punto que te falta por completo. Puede probar esto muy fácilmente usted mismo. Simplemente genere una muestra de la distribución gaussiana y verifique su momento. Nunca serán perfectamente "normales", a pesar de que la verdadera distribución sea tal.
Aquí hay un ejemplo tonto de Python. Estoy generando 100 muestras de 100 números aleatorios, luego obtengo sus medias y medianas. Imprimo la primera muestra para mostrar que la media y la mediana son diferentes, luego muestro el histograma de la diferencia entre las medias y las medianas. Puedes ver que es bastante estrecho, pero la diferencia es básicamente nunca cero. Tenga en cuenta que los números realmente provienen de una distribución normal .
código:
salidas:
PD
Ahora, si el ejemplo de su pregunta debe considerarse normal o no depende del contexto. En el contexto de lo que se enseñó en el aula, estás equivocado, porque tu profesor quería ver si conoces la prueba de la regla general que te dio, que es que la curtosis sesgada y excesiva debe estar en -1 a 1 rango.
Personalmente, nunca usé esta regla general en particular (no puedo llamarlo una prueba), y ni siquiera sabía que existía. Aparentemente, algunas personas en algunos campos lo usan. Si conectara los descriptivos de su conjunto de datos a la prueba JB, habría rechazado la normalidad. Por lo tanto, no está equivocado al sugerir que el conjunto de datos no es normal, por supuesto, pero está equivocado en el sentido de que no pudo aplicar la regla que se esperaba de usted en función de lo que se enseñó en la clase.
Si fuera usted, me acercaría cortésmente a su profesor y le explicaría, además de mostrarle la salida de prueba de JB. Reconocería que, según su prueba, mi respuesta fue incorrecta, por supuesto. Si intentas discutir con ella de la forma en que discutes aquí, tus posibilidades son muy bajas de recuperar el punto en la prueba, porque tu razonamiento es débil sobre las medianas y los medios y las muestras, muestra falta de comprensión de las muestras frente a las poblaciones. Si cambia de tono, tendrá un caso.
fuente
El maestro está claramente fuera de su elemento, y probablemente no debería enseñar estadísticas. Me parece peor enseñar algo mal que no enseñarlo en absoluto.
Todos estos problemas podrían resolverse fácilmente si la distinción entre "datos" y "proceso que produjo los datos" se hiciera más claramente. Los datos se dirigen al proceso que produjo los datos. La distribución normal es un modelo para este proceso.
No tiene sentido hablar sobre si los datos se distribuyen normalmente. Por una razón, los datos son siempre discretos. Por otra razón, la distribución normal describe una infinidad de cantidades potencialmente observables, no un conjunto finito de cantidades específicas observadas.
Además, la respuesta a la pregunta "es el proceso que produjo los datos de un proceso distribuido normalmente " también es siempre "no", independientemente de los datos. Dos razones simples: (i) cualquier medida que tomemos es necesariamente discreta, redondeada a cierto nivel. (ii) la simetría perfecta, como un círculo perfecto, no existe en la naturaleza observable. Siempre hay imperfecciones.
En el mejor de los casos, la respuesta a la pregunta "¿qué le dicen estos datos sobre la normalidad del proceso de generación de datos" se podría dar de la siguiente manera: "estos datos son consistentes con lo que esperaríamos ver, si los datos realmente provienen de un proceso normalmente distribuido ". Esa respuesta correcta no concluye que la distribución es normal.
Estos problemas se entienden muy fácilmente mediante el uso de simulación. Simplemente simule datos de una distribución normal y compárelos con los datos existentes. Si los datos son recuentos (0,1,2,3, ...), entonces obviamente el modelo normal está equivocado porque no produce números como 0,1,2,3, ...; en cambio, produce números con decimales que duran para siempre (o al menos hasta donde la computadora lo permita). Tal simulación debería ser lo primero que debe hacer al aprender sobre la pregunta de normalidad. Entonces puede interpretar más correctamente los gráficos y las estadísticas de resumen.
fuente
Soy ingeniero, así que en mi mundo, el estadístico aplicado es lo que más veo y obtengo el valor más concreto. Si va a trabajar aplicado, entonces debe estar sólidamente basado en la práctica sobre la teoría: ya sea elegante o no, el avión tiene que volar y no chocar.
Cuando pienso en esta pregunta, la forma en que la abordo, como también lo han hecho muchos de mis mejores técnicos aquí, es pensar en "cómo se ve en el mundo real con la presencia de ruido".
La segunda cosa que hago es, a menudo, hacer una simulación que me permita entender la pregunta.
Aquí hay una breve exploración:
Da esto como la salida:
Nota: tenga cuidado con el eje x, porque tiene escala de registro, no escala uniforme.
Sé que la media y la mediana son exactamente las mismas. El código lo dice. La realización empírica es muy sensible al tamaño de la muestra, y si no hay muestras realmente infinitas, entonces nunca pueden coincidir perfectamente con la teoría.
Puede pensar si la incertidumbre en la mediana envuelve la media estimada o viceversa. Si la mejor estimación de la media está dentro del IC del 95% de la estimación para la mediana, entonces los datos no pueden decir la diferencia. Los datos dicen que son iguales en teoría. Si obtiene más datos, vea lo que dice.
fuente
En las estadísticas médicas, solo comentamos las formas y la apariencia de las distribuciones. El hecho de que ninguna muestra finita discreta pueda ser normal es irrelevante y pedante. Te marcaría mal por eso.
Si una distribución parece "mayormente" normal, nos sentimos cómodos con llamarla normal. Cuando describo distribuciones para una audiencia no estadística, me siento muy cómodo llamando a algo aproximadamente normal, incluso cuando sé que la distribución normal no es el modelo de probabilidad subyacente, tengo la sensación de que estaría del lado de su maestro aquí ... pero nosotros no tiene histograma o conjunto de datos para verificar.
Como consejo, realizaría las siguientes inspecciones muy de cerca:
fuente
Creo que usted y su profesor están hablando en un contexto diferente. La igualdad de la media = mediana = modo son características de distribución teórica y esta no es la única característica. No puede decir que si para cualquier distribución por encima de la propiedad se mantiene, la distribución es normal. La distribución T también es simétrica pero no es normal. Entonces, estás hablando de propiedades teóricas de distribución normal que siempre son válidas para la distribución normal.
Su profesor está hablando sobre la distribución de datos de muestra. Tiene razón, nunca obtendrá datos en la vida real, donde encontrará mean = median = mode. Esto se debe simplemente a un error de muestreo . Del mismo modo, es muy poco probable, obtendrá un coeficiente de asimetría cero para los datos de la muestra y un exceso de curtosis cero. Su profesor solo le está dando una regla simple para tener una idea sobre la distribución de las estadísticas de muestra. Lo cual no es cierto en general (sin obtener más información).
fuente
Para fines prácticos, los procesos subyacentes como este generalmente se aproximan finamente por distribución normal sin que nadie levante una ceja.
Sin embargo, si desea ser pedante, el proceso subyacente en este caso no se puede distribuir normalmente, porque no puede producir valores negativos (el número de caídas no puede ser negativo). No me sorprendería si en realidad fuera al menos una distribución bimodal con un segundo pico cercano a cero.
fuente