Creo que este es un tema fascinante y no lo entiendo completamente. ¿Qué ley de la física hace que tantos fenómenos naturales tengan una distribución normal? Parecería más intuitivo que tendrían una distribución uniforme.
Es muy difícil para mí entender esto y siento que me falta algo de información. ¿Alguien puede ayudarme con una buena explicación o vincularme a un libro / video / artículo?
Respuestas:
Permítanme comenzar negando la premisa. Robert Geary probablemente no exageró el caso cuando dijo (en 1947) " ... la normalidad es un mito; nunca hubo, y nunca habrá, una distribución normal ".
La distribución normal es un modelo *, un aproximación que a veces es más o menos útil.
Que algunos fenómenos sean aproximadamente normales puede no ser una gran sorpresa, ya que las sumas de efectos independientes [o incluso no muy fuertemente correlacionados] deberían, si hay muchos de ellos y ninguno tiene una variación sustancial en comparación con la variación de suma del resto que podríamos ver la distribución tiende a parecer más normal.
El teorema del límite central (que trata sobre la convergencia a una distribución normal de una media muestral estandarizada cuando llega al infinito en algunas condiciones suaves) al menos sugiere que podríamos ver una tendencia hacia esa normalidad con tamaños de muestra suficientemente grandes pero finitos.n
Por supuesto, si los medios estandarizados son aproximadamente normales, las sumas estandarizadas lo serán; Esta es la razón del razonamiento de la "suma de muchos efectos". Entonces, si hay muchas pequeñas contribuciones a la variación, y no están altamente correlacionadas, es probable que tengas que verla.
El teorema de Berry-Esseen nos da una declaración al respecto (convergencia hacia distribuciones normales) que realmente ocurre con medias de muestra estandarizadas para datos iid (en condiciones ligeramente más estrictas que para el CLT, ya que requiere que el tercer momento absoluto sea finito), como además de contarnos qué tan rápido sucede. Las versiones posteriores del teorema tratan con componentes no idénticamente distribuidos en la suma , aunque los límites superiores en la desviación de la normalidad son menos ajustados.
Menos formalmente, el comportamiento de las convoluciones con distribuciones razonablemente agradables nos da razones adicionales (aunque estrechamente relacionadas) para sospechar que en muchos casos puede ser una aproximación justa en muestras finitas. La convolución actúa como una especie de operador "difuminado" con el que las personas que usan la estimación de la densidad del núcleo en una variedad de núcleos estarán familiarizadas; una vez que estandariza el resultado (para que la varianza permanezca constante cada vez que realiza dicha operación), hay una clara progresión hacia formas de colina cada vez más simétricas a medida que suaviza repetidamente (y no importa mucho si cambia el núcleo cada vez).
Terry Tao da una buena discusión de las versiones del teorema del límite central y el teorema de Berry-Esseen aquí , y en el camino menciona un enfoque a una versión no independiente de Berry-Esseen.
Entonces, hay al menos una clase de situaciones en las que podríamos esperar verla, y razones formales para pensar que realmente tenderá a suceder en esas situaciones. Sin embargo, en el mejor de los casos, cualquier sensación de que el resultado de "sumas de muchos efectos" será normal es una aproximación. En muchos casos, es una aproximación bastante razonable (y en casos adicionales, aunque la aproximación de la distribución no es cercana, algunos procedimientos que suponen que la normalidad no son especialmente sensibles a la distribución de los valores individuales, al menos en muestras grandes).
Hay muchas otras circunstancias donde los efectos no "suman" y allí podemos esperar que sucedan otras cosas; por ejemplo, en muchos datos financieros, los efectos tienden a ser multiplicativos (los efectos moverán cantidades en términos porcentuales, como intereses e inflación y tasas de cambio, por ejemplo). Allí no esperamos normalidad, pero a veces podemos observar una aproximación aproximada a la normalidad en la escala logarítmica. En otras situaciones, ninguno puede ser apropiado, incluso en un sentido aproximado. Por ejemplo, los tiempos entre eventos generalmente no se aproximarán bien por la normalidad o la normalidad de los registros; no hay "sumas" ni "productos" de efectos para discutir aquí. Existen numerosos otros fenómenos en los que podemos argumentar a favor de un tipo particular de "ley" en circunstancias particulares.
fuente
Hay un dicho famoso de Gabriel Lippmann (físico, premio Nobel), según lo dicho por Poincaré:
Parece que no tenemos esta cita en nuestro hilo de la Lista de citas estadísticas, por eso pensé que sería bueno publicarla aquí.
fuente
La distribución normal es un lugar común en las ciencias naturales. La explicación habitual es por qué sucede en los errores de medición a través de algún tipo de números grandes o razonamiento del teorema del límite central (CLT), que generalmente es así: "dado que los resultados del experimento se ven afectados por un número infinitamente grande de perturbaciones provenientes de fuentes no relacionadas CLT sugiere que los errores se distribuirían normalmente ". Por ejemplo, aquí hay un extracto de Métodos estadísticos en el análisis de datos de WJ Metzger:
Sin embargo, como debe saber, esto no significa que cada distribución sea normal, por supuesto. Por ejemplo, la distribución de Poisson es tan común en física cuando se trata de procesos de conteo. En la espectroscopía, la distribución de Cauchy (también conocida como Breit Wigner) se utiliza para describir la forma de los espectros de radiación, etc.
Me di cuenta de esto después de escribir: las tres distribuciones mencionadas hasta ahora (Gaussian, Poisson, Cauchy) son distribuciones estables , con Poisson siendo discretamente estable . Ahora que pensé en esto, parece una cualidad importante de una distribución que hará que sobreviva a las agregaciones: si agrega un número de números de Poisson, la suma es un Poisson. Esto puede "explicar" (en cierto sentido) por qué es tan omnipresente.
En ciencias no naturales, debe tener mucho cuidado al aplicar la distribución normal (o cualquier otra) por una variedad de razones. En particular, las correlaciones y las dependencias son un problema, ya que pueden romper los supuestos de CLT. Por ejemplo, en finanzas es bien sabido que muchas series parecen normales pero tienen colas mucho más pesadas , lo cual es un gran problema en la gestión de riesgos.
Finalmente, hay razones más sólidas en las ciencias naturales para tener una distribución normal que el tipo de razonamiento de "agitar las manos" que mencioné anteriormente. Considere, movimiento browniano. Si los choques son verdaderamente independientes e infinitesimales, entonces, inevitablemente, la distribución de un camino observable tendrá una distribución normal debido a CLT, ver, por ejemplo, la ecuación (10) en el famoso trabajo de Einstein " INVESTIGACIONES SOBRE LA TEORÍA DEL MOVIMIENTO MARRÓN ". Ni siquiera se molestó en llamarlo por su nombre de hoy "gaussiano" o "normal".
Por lo tanto, no se sorprenda de obtener reacciones muy diferentes al uso de la distribución gaussiana por parte de investigadores en diferentes campos. En algunos campos como la física, se espera que ciertos fenómenos estén vinculados naturalmente a la distribución gaussiana basada en una teoría muy sólida respaldada por una enorme cantidad de observaciones. En otros campos, la distribución normal se utiliza por su conveniencia técnica, propiedades matemáticas útiles u otras razones cuestionables.
fuente
Hay muchas explicaciones demasiado complicadas aquí ...
Una buena manera de relacionarme es la siguiente:
Tira un solo dado, y tienes la misma probabilidad de tirar cada número (1-6), y por lo tanto, el PDF es constante.
Tira dos dados y suma los resultados, y el PDF ya no es constante. Esto se debe a que hay 36 combinaciones, y el rango sumativo es de 2 a 12. La probabilidad de un 2 es una combinación singular única de 1 + 1. La probabilidad de un 12 también es única, ya que solo puede ocurrir en una sola combinación de un 6 + 6. Ahora, mirando 7, hay múltiples combinaciones, es decir, 3 + 4, 5 + 2 y 6 + 1 ( y sus permutaciones inversas). A medida que trabaja lejos del valor medio (es decir, 7), hay combinaciones menores para 6 y 8, etc., hasta llegar a las combinaciones singulares de 2 y 12. Este ejemplo no da como resultado una distribución normal clara, pero más mueren agrega, y mientras más muestras tome, el resultado tenderá a una distribución normal.
Por lo tanto, a medida que suma un rango de variables independientes sujetas a variaciones aleatorias (cada una de las cuales puede tener sus propios PDF), mayor será la salida resultante a la normalidad. Esto en términos Six Sigma nos da lo que llamamos la 'Voz del proceso'. Esto es lo que llamamos el resultado de la 'variación de causa común' de un sistema y, por lo tanto, si la salida tiende a la normalidad, llamamos a este sistema 'en el control estadístico del proceso'. Cuando la salida no es normal (sesgada o desplazada), entonces decimos que el sistema está sujeto a una 'variación de causa especial' en la que ha habido alguna 'señal' que ha sesgado el resultado de alguna manera.
Espero que ayude.
fuente
Ni idea. Por otro lado, tampoco tengo idea de si es verdad o de lo que significa "tantos".
Sin embargo, al reorganizar un poco el problema, hay buenas razones para suponer (es decir, modelar ) una cantidad continua que cree que tiene una media y una varianza fijas con una distribución Normal. Esto se debe a que la distribución Normal es el resultado de maximizar la entropía sujeta a esas restricciones de momento. Dado que, en términos generales, la entropía es una medida de incertidumbre, que hace que la Normal sea la opción de forma distribucional más poco comprometida o máximamente incierta.
Ahora, la idea de que uno debe elegir una distribución maximizando su entropía sujeta a restricciones conocidas realmente tiene cierto respaldo físico en términos de la cantidad de formas posibles de cumplirlas. Jaynes en mecánica estadística es la referencia estándar aquí.
Tenga en cuenta que si bien la entropía máxima motiva las distribuciones normales en este caso, se puede mostrar que diferentes tipos de restricciones conducen a diferentes familias de distribución, por ejemplo, el familiar exponencial, poisson, binomial, etc.
Sivia and Skilling 2005 ch.5 tiene una discusión intuitiva.
fuente