Esta es probablemente una pregunta amateur, pero estoy interesado en cómo surgieron los científicos la forma de la función de densidad de probabilidad de distribución normal. Básicamente, lo que me molesta es que para alguien quizás sea más intuitivo que la función de probabilidad de los datos distribuidos normalmente tiene la forma de un triángulo isósceles en lugar de una curva de campana, y cómo le demostraría a esa persona que la función de densidad de probabilidad de todos los datos distribuidos normalmente tienen forma de campana? Por experimento? ¿O por alguna derivación matemática?
Después de todo, ¿qué consideramos realmente los datos distribuidos normalmente? ¿Datos que siguen el patrón de probabilidad de una distribución normal u otra cosa?
Básicamente, mi pregunta es ¿por qué la función de densidad de probabilidad de distribución normal tiene forma de campana y no otra? ¿Y cómo descubrieron los científicos en qué escenarios de la vida real se puede aplicar la distribución normal, mediante experimentación o estudiando la naturaleza de varios datos en sí?
Así que he encontrado que este enlace es realmente útil para explicar la derivación de la forma funcional de la curva de distribución normal y, por lo tanto, responder a la pregunta "¿Por qué la distribución normal se ve como es y no otra cosa?". Un razonamiento realmente alucinante, al menos para mí.
Respuestas:
" La evolución de la distribución normal " de SAUL STAHL es la mejor fuente de información para responder prácticamente todas las preguntas de su publicación. Recitaré algunos puntos solo para su conveniencia, porque encontrará la discusión detallada dentro del documento.
No, es una pregunta interesante para cualquiera que use estadísticas, porque esto no se cubre en detalle en ningún lugar de los cursos estándar.
Mira esta foto del periódico. Muestra las curvas de error que se le ocurrió a Simpson antes de descubrir Gauss (Normal) para analizar datos experimentales. Entonces, su intuición es perfecta.
Sí, por eso se llamaron "curvas de error". El experimento fue mediciones astronómicas. Los astrónomos lucharon con los errores de medición durante siglos.
De nuevo, sí! Larga historia corta: el análisis de errores en los datos astronómicos llevó a Gauss a su distribución (también conocida como Normal). Estos son los supuestos que utilizó:
Por cierto, Laplace utilizó algunos enfoques diferentes, y también se le ocurrió su distribución mientras trabajaba con datos astronómicos:
En cuanto a por qué la distribución normal se muestra en el experimento como errores de medición, a continuación se presenta una explicación típica "ondulada a mano" (una cita de Gerhard Bohm, Günter Zech, Introducción a las estadísticas y análisis de datos para físicos p.85):
fuente
Parece suponer en su pregunta que el concepto de la distribución normal existía antes de que se identificara la distribución, y las personas trataron de descubrir cuál era. No me queda claro cómo funcionaría eso. [Editar: hay al menos un sentido que podríamos considerar como una "búsqueda de una distribución", pero no es "una búsqueda de una distribución que describe muchos y muchos fenómenos"]
Este no es el caso; la distribución se conocía antes de que se llamara distribución normal.
La función de distribución normal es lo que generalmente se llama "forma de campana": todas las distribuciones normales tienen la misma "forma" (en el sentido de que solo difieren en escala y ubicación).
Los datos pueden verse más o menos "en forma de campana" en la distribución, pero eso no lo hace normal. Muchas distribuciones no normales se ven similarmente "en forma de campana".
Las distribuciones de población reales de las que se obtienen los datos probablemente nunca sean realmente normales, aunque a veces es una aproximación bastante razonable.
Esto suele ser cierto para casi todas las distribuciones que aplicamos a las cosas en el mundo real: son modelos , no hechos sobre el mundo. [Como ejemplo, si hacemos ciertas suposiciones (las de un proceso de Poisson), podemos derivar la distribución de Poisson, una distribución ampliamente utilizada. Pero, ¿se cumplen exactamente esos supuestos ? En general, lo mejor que podemos decir (en las situaciones correctas) es que son casi verdaderas.]
Sí, para estar realmente distribuido normalmente, la población de la que se extrajo la muestra tendría que tener una distribución que tenga la forma funcional exacta de una distribución normal. Como resultado, cualquier población finita no puede ser normal. Las variables que necesariamente delimitan no pueden ser normales (por ejemplo, los tiempos que se toman para tareas particulares, la duración de cosas particulares no pueden ser negativas, por lo que en realidad no se pueden distribuir normalmente).
No veo por qué esto es necesariamente más intuitivo. Ciertamente es más simple.
Al desarrollar por primera vez modelos para distribuciones de errores (específicamente para astronomía en el período inicial), los matemáticos consideraron una variedad de formas en relación con las distribuciones de errores (incluida en un punto inicial una distribución triangular), pero en gran parte de este trabajo fueron las matemáticas (más bien que la intuición) que se utilizó. Laplace observó distribuciones dobles exponenciales y normales (entre otras), por ejemplo. De manera similar, Gauss usó las matemáticas para derivarlas aproximadamente al mismo tiempo, pero en relación con un conjunto diferente de consideraciones que Laplace.
En el sentido estricto de que Laplace y Gauss estaban considerando "distribuciones de errores", podríamos considerar que se trata de una "búsqueda de una distribución", al menos por un tiempo. Ambos postularon algunas propiedades para una distribución de errores que consideraron importantes (Laplace consideró una secuencia de criterios algo diferentes a lo largo del tiempo) condujeron a diferentes distribuciones.
La forma funcional de lo que se llama función de densidad normal le da esa forma. Considere el estándar normal (por simplicidad; cualquier otro normal tiene la misma forma, que difiere solo en escala y ubicación):
Si bien algunas personas han considerado que la distribución normal de alguna manera es "usual", en realidad solo en situaciones particulares se tiende a verla como una aproximación.
El descubrimiento de la distribución generalmente se atribuye a de Moivre (como una aproximación al binomio). De hecho, derivó la forma funcional al tratar de aproximar los coeficientes binomiales (/ probabilidades binomiales) para aproximar los cálculos tediosos, pero, aunque deduce efectivamente la forma de la distribución normal, no parece haber pensado en su aproximación como un distribución de probabilidad, aunque algunos autores sugieren que lo hizo. Se requiere una cierta cantidad de interpretación para que haya margen para las diferencias en esa interpretación.
Gauss y Laplace trabajaron en ello a principios de 1800; Gauss escribió sobre esto en 1809 (en relación con que es la distribución para la cual la media es el MLE del centro) y Laplace en 1810, como una aproximación a la distribución de sumas de variables aleatorias simétricas. Una década después, Laplace ofrece una forma temprana de teorema del límite central, para variables discretas y continuas.
Los primeros nombres para la distribución incluyen la ley del error , la ley de la frecuencia de los errores , y también lleva el nombre de Laplace y Gauss, a veces conjuntamente.
El término "normal" se usó para describir la distribución de forma independiente por tres autores diferentes en la década de 1870 (Peirce, Lexis y Galton), el primero en 1873 y los otros dos en 1877. Esto es más de sesenta años después del trabajo de Gauss y Laplace y más del doble que desde la aproximación de De Moivre. El uso de Galton fue probablemente más influyente, pero usó el término "normal" en relación con él solo una vez en ese trabajo de 1877 (en su mayoría lo llamó "la ley de la desviación").
Sin embargo, en la década de 1880 Galton usó el adjetivo "normal" en relación con la distribución en numerosas ocasiones (por ejemplo, como la "curva normal" en 1889), y a su vez tuvo mucha influencia en los estadísticos posteriores en el Reino Unido (especialmente Karl Pearson ) No dijo por qué usó el término "normal" de esta manera, pero presumiblemente lo dijo en el sentido de "típico" o "usual".
El primer uso explícito de la frase "distribución normal" parece ser de Karl Pearson; ciertamente lo usa en 1894, aunque afirma haberlo usado mucho antes (un reclamo que vería con cierta precaución).
Referencias
Miller, Jeff
"Usos más antiguos conocidos de algunas de las palabras de las matemáticas:"
Distribución normal (entrada de John Aldrich)
http://jeff560.tripod.com/n.html
Stahl, Saul (2006),
"La evolución de la distribución normal",
Mathematics Magazine , vol. 79, N ° 2 (abril), pp 96-113
https://www.maa.org/sites/default/files/pdf/upload_library/22/Allendoerfer/stahl96.pdf
Distribución normal, (2016, 1 de agosto).
En Wikipedia, la enciclopedia libre.
Consultado el 12 de agosto de 2016 a las 12:02 en
https://en.wikipedia.org/w/index.php?title=Normal_distribution&oldid=732559095#History
Hald, A (2007),
"La aproximación normal de De Moivre al binomio, 1733, y su generalización",
en: Una historia de inferencia estadística paramétrica de Bernoulli a Fisher, 1713–1935; pp 17-24
[Puede observar discrepancias sustanciales entre estas fuentes en relación con su cuenta de de Moivre]
fuente
La distribución "normal" se define como esa distribución particular.
La pregunta es ¿por qué esperaríamos que esta distribución en particular sea de naturaleza común, y por qué se usa tan a menudo como una aproximación incluso cuando los datos reales no siguen exactamente esa distribución? (A menudo se encuentra que los datos reales tienen una "cola gorda", es decir, los valores lejos de la media son mucho más comunes de lo que predeciría la distribución normal).
En otras palabras, ¿qué tiene de especial la distribución normal?
Lo normal tiene muchas propiedades estadísticas "agradables" (ver, por ejemplo, https://en.wikipedia.org/wiki/Central_limit_theorem ), pero la OMI más relevante es el hecho de que es la función de "máxima entropía" para cualquier distribución con una media dada y varianza. https://en.wikipedia.org/wiki/Maximum_entropy_probability_distribution
Para expresar esto en un lenguaje ordinario, si se le da solo la media (punto central) y la varianza (ancho) de una distribución, y no asume nada más al respecto, se verá obligado a dibujar una distribución normal. Cualquier otra cosa requiere información adicional (en el sentido de la teoría de la información de Shannon ), por ejemplo asimetría, para determinarla.
ET Jaynes introdujo el principio de máxima entropía como una forma de determinar antecedentes razonables en la inferencia bayesiana, y creo que fue el primero en llamar la atención sobre esta propiedad.
Vea esto para mayor discusión: http://www.inf.fu-berlin.de/inst/ag-ki/rojas_home/documents/tutorials/Gaussian-distribution.pdf
fuente
La distribución normal (también conocida como " distribución gaussiana ") tiene una base matemática firme. El teorema del límite central dice que si tiene un conjunto finito de n variables aleatorias independientes e idénticamente distribuidas que tienen una media y varianza específicas, y toma el promedio de esas variables aleatorias, la distribución del resultado convergerá a una distribución gaussiana como n va al infinito Aquí no hay conjeturas, ya que la derivación matemática conduce a esta función de distribución específica y no a otra.
Para poner esto en términos más tangibles, considere una sola variable aleatoria, como lanzar una moneda justa (2 resultados igualmente posibles). Las probabilidades de obtener un resultado particular son 1/2 para cara y 1/2 para cruz.
Si aumenta el número de monedas y realiza un seguimiento del número total de caras obtenidas con cada intento, obtendrá una Distribución binomial , que tiene una forma más o menos campana. Simplemente grafica con el número de cabezas a lo largo del eje x, y el número de veces que volteaste tantas cabezas a lo largo del eje y.
Cuantas más monedas uses y más veces las tires, más se acercará el gráfico a parecerse a una curva de campana gaussiana. Eso es lo que afirma el Teorema del límite central.
Lo sorprendente es que el teorema no depende de cómo se distribuyen realmente las variables aleatorias, siempre que cada una de las variables aleatorias tenga la misma distribución. Una idea clave en el teorema es que está agregando o promediando las variables aleatorias. Otro concepto clave es que el teorema describe el límite matemático a medida que el número de variables aleatorias aumenta y aumenta. Cuantas más variables use, más se acercará la distribución a una Distribución normal.
Le recomiendo que tome una clase de Estadística matemática si desea ver cómo los matemáticos determinaron que la Distribución normal es en realidad la función matemáticamente correcta para la curva de campana.
fuente
Hay algunas respuestas excelentes en este hilo. No puedo evitar sentir que el OP no estaba haciendo la misma pregunta que todos quieren responder. Sin embargo, entiendo eso, porque esta es una de las preguntas más emocionantes para responder: en realidad lo encontré porque esperaba que alguien tuviera la pregunta "¿Cómo sabemos que el PDF normal es un PDF?" y lo busqué Pero creo que la respuesta a la pregunta puede ser demostrar el origen de la distribución normal.
La distribución normal se diseñó primero para usarse para aproximar la distribución binomial para muy grandesnorte . En 1744, un matemático llamado De Moivre demostró que la distribución binomial, para grandesnorte , tiene probabilidades muy similares a una distribución normal con media n p y varianza n p ( 1 - p ) . La prueba de esto se deduce naturalmente de tomar el límite del binomio pdf comon → ∞ , y reemplazando los valores factoriales con la aproximación de Stirling.
Pero nuevamente estoy tentado a profundizar en la prueba de que esto sucede, y no sé si eso es lo que quería el OP. Si está interesado, se explica aquí . Solo sepa que podemos probar "fácilmente" que el límite de la distribución binomial comon → ∞ y p → 0 tal que n p = 1 Es una distribución normal.
Tomando ese conocimiento, podemos ver por qué la distribución normal tiene forma de campana si podemos ver por qué la distribución binomial tiene forma de campana, que es mucho más fácil de ver. Siga adelante y pruébelo usted mismo: haga un gráfico discreto de las probabilidades binomiales paran = 10 y p = 0.5 . ¿Cómo se forma? ¿Qué pasa con un gráfico discreto de las probabilidades binomiales paran = 100 y p = 0.5 ? De hecho, hágalo empíricamente, genere algunos datos aleatorios distribuidos binomialmente y vea cómo se ve el histograma. Por supuesto, es una campana de aspecto bastante bloqueado, pero se vuelve más curvilínea cuanto más altonorte es. Pero, ¿por qué tiene forma de campana?
Si arrojo 100 monedas en el suelo en este momento y cuento cuántas caras obtengo, podría contar 0 caras, o podría contar 100 caras, pero es mucho más probable que cuente un número en algún punto intermedio. ¿Ves por qué este histograma debería tener forma de campana?
fuente
También mencionaría la derivación de Maxwell-Herschel de la distribución normal multivariada independiente a partir de dos supuestos:
La distribución no se ve afectada por la rotación del vector.
Los componentes del vector son independientes.
Aquí está la exposición de Jaynes
fuente