En mi clase de cálculo, encontramos la función , o la "curva de campana", y me dijeron que tiene aplicaciones frecuentes en estadística.
Por curiosidad, quiero preguntar: ¿Es la función realmente importante en las estadísticas? Si es así, ¿de qué se trata que lo hace útil, y cuáles son algunas de sus aplicaciones? e - x 2
No pude encontrar mucha información sobre la función en Internet, pero después de investigar un poco, encontré un vínculo entre las curvas de campana en general y algo llamado distribución normal . Una página de Wikipedia vincula estos tipos de funciones a la aplicación de estadísticas, destacando por mí, que dice:
"La distribución normal se considera la distribución de probabilidad más prominente en las estadísticas. Hay varias razones para esto: 1 Primero, la distribución normal surge del teorema del límite central, que establece que, en condiciones moderadas, se obtiene la suma de una gran cantidad de variables aleatorias de la misma distribución se distribuye aproximadamente normalmente, independientemente de la forma de la distribución original ".
Entonces, si reúno una gran cantidad de datos de algún tipo de encuesta o similar, ¿podrían distribuirse equitativamente entre una función como ? La función es simétrica, también lo es su simetría, es decir, su utilidad para la distribución normal, ¿qué la hace tan útil en estadística? Solo estoy especulando.
En general, ¿qué hace que útil en estadísticas? Si la distribución normal es la única área, entonces, ¿qué hace que único o específicamente útil entre otras funciones de tipo gaussiano en distribución normal? e - x 2
fuente
Respuestas:
La razón por la que esta función es importante es, de hecho, la distribución normal y su compañero estrechamente vinculado, el teorema del límite central (tenemos algunas buenas explicaciones del CLT en otras preguntas aquí).
En estadística, el CLT generalmente se puede usar para calcular las probabilidades aproximadamente, haciendo declaraciones como "estamos 95% seguros de que ..." posible (el significado de "95% seguro" a menudo se entiende mal, pero eso es un asunto diferente).
La función es (una versión a escala de) la función de densidad de la distribución normal. Si se puede modelar una cantidad aleatoria utilizando la distribución normal, esta función describe la probabilidad de que sean diferentes los valores posibles de dicha cantidad. Los resultados en regiones con alta densidad son más probables que los resultados en regiones con baja densidad.Exp(−(x−μ)22σ2)
y σ son parámetros que determinan la ubicación y la escala de la función de densidad. Es simétrico respecto a μ , por lo que cambiar μ significa que desplaza la función hacia la derecha o hacia la izquierda. σ determina el valor de la función de densidad en su máximo ( x = μ ) y qué tan rápido va a 0 cuando x se aleja de μ . En ese sentido, cambiarcambia la escala de la función.μ σ μ μ σ x=μ x μ σ
Para la elección particular y la densidad es (proporcional a) . Esta no es una opción particularmente interesante de estos parámetros, pero tiene el beneficio de producir una función de densidad que parece un poco más simple que todas las demás.σ = 1 / √μ=0 e - x 2σ=1/2–√ e−x2
Por otro lado, podemos pasar de a cualquier otra densidad normal mediante el cambio de variables . La razón por la cual su libro de texto dice que , y no , es una muy La función importante es que es más simple de escribir. x = u - μe−x2 e-x2exp(-(x-μ)2x=u−μ2√σ e−x2 e-x2exp(−(x−μ)22σ2) e−x2
fuente
Tiene razón, la distribución normal o gaussiana es una escalada y desplazada , por lo que la importancia de proviene principalmente del hecho de que es esencialmente la distribución normal.exp ( - x 2 )Exp( - x2) Exp( - x2)
Y la distribución normal es importante principalmente porque ("en condiciones de regularidad moderada") la suma de muchas variables aleatorias independientes e idénticamente distribuidas se aproxima a la normal, cuando "muchas" se acerca al infinito.
No todo se distribuye normalmente. Por ejemplo, los resultados de su encuesta pueden no ser, al menos si las respuestas ni siquiera están en la escala continua, sino algo así como los enteros 1–5. Pero la media de los resultados normalmente se distribuye en muestras repetidas, porque la media es solo una suma escalada (normalizada) y las respuestas individuales son independientes entre sí. Suponiendo que la muestra es lo suficientemente grande, por supuesto, porque estrictamente hablando, la normalidad aparece solo cuando el tamaño de la muestra se vuelve infinito.
Como puede ver en el ejemplo, la distribución normal puede aparecer como resultado del proceso de estimación o modelado, incluso cuando los datos no se distribuyen normalmente. Por lo tanto, las distribuciones normales están en todas partes en las estadísticas. En las estadísticas bayesianas, muchas distribuciones posteriores de parámetros son aproximadamente normales, o se puede suponer que lo son.
fuente
fuente