¿Cuáles son algunos teoremas que podrían explicar (es decir, generativamente) por qué se espera que los datos del mundo real se distribuyan normalmente?
Hay dos que conozco:
El Teorema del límite central (por supuesto), que nos dice que la suma de varias variables aleatorias independientes con media y varianza (incluso cuando no están idénticamente distribuidas) tiende a distribuirse normalmente
Supongamos que X e Y son RV continuos independientes con densidades diferenciables de modo que su densidad conjunta solo depende de + . Entonces X e Y son normales.
(cross-post de mathexchange )
Editar: Para aclarar, no estoy haciendo ninguna afirmación sobre la cantidad de datos del mundo real que normalmente se distribuyen. Solo estoy preguntando acerca de los teoremas que pueden dar una idea de qué tipo de procesos podrían conducir a datos distribuidos normalmente.
Respuestas:
Muchas distribuciones limitantes de RV discretos (poisson, binomial, etc.) son aproximadamente normales. Piensa en plinko. En casi todos los casos, cuando se mantiene la normalidad aproximada, la normalidad solo se aplica a muestras grandes.
La mayoría de los datos del mundo real NO se distribuyen normalmente. Un artículo de Micceri (1989) titulado " El unicornio, la curva normal y otras criaturas improbables " examinó 440 logros a gran escala y medidas psicométricas. Encontró mucha variabilidad en las distribuciones en sus momentos y poca evidencia de normalidad (incluso aproximada).
En un artículo de Steven Stigler de 1977 llamado " Los estimadores robustos trabajan con datos reales ", usó 24 conjuntos de datos recopilados de famosos intentos del siglo XVIII para medir la distancia desde la tierra al sol y los intentos del siglo XIX para medir la velocidad de la luz. Informó asimetría de la muestra y curtosis en la Tabla 3. Los datos son de cola pesada.
En estadística, asumimos la normalidad muchas veces porque hace que la máxima probabilidad (o algún otro método) sea conveniente. Sin embargo, lo que muestran los dos documentos citados anteriormente es que la suposición es a menudo tenue. Es por eso que los estudios de robustez son útiles.
fuente
También hay una justificación teórica de la información para el uso de la distribución normal. Dada la media y la varianza, la distribución normal tiene una entropía máxima entre todas las distribuciones de probabilidad con valores reales. Hay muchas fuentes que discuten esta propiedad. Una breve se puede encontrar aquí . En este artículo de la revista Signal Processing se puede encontrar una discusión más general sobre la motivación para usar la distribución gaussiana que involucra la mayoría de los argumentos mencionados hasta ahora .
fuente
En física es CLT, que generalmente se cita como una razón para tener errores distribuidos normalmente en muchas mediciones.
Las dos distribuciones de errores más comunes en física experimental son normal y Poisson. Este último generalmente se encuentra en mediciones de conteo, como la desintegración radiactiva.
Otra característica interesante de estas dos distribuciones es que una suma de variables aleatorias de Gauss y Poisson pertenece a Gauss y Poisson.
Hay varios libros sobre estadística en ciencias experimentales como este : Gerhard Bohm, Günter Zech, Introducción a la estadística y análisis de datos para físicos, ISBN 978-3-935702-41-6
fuente
El CLT es extremadamente útil cuando se hacen inferencias sobre cosas como el significado de la población porque llegamos allí al calcular algún tipo de combinación lineal de un conjunto de mediciones individuales. Sin embargo, cuando intentamos hacer inferencias sobre observaciones individuales, especialmente futuras ( por ejemplo , intervalos de predicción), las desviaciones de la normalidad son mucho más importantes si estamos interesados en las colas de la distribución. Por ejemplo, si tenemos 50 observaciones, estamos haciendo una extrapolación muy grande (y un salto de fe) cuando decimos algo sobre la probabilidad de que una observación futura sea al menos 3 desviaciones estándar de la media.
fuente