Citando un artículo de Wikipedia sobre la estimación de parámetros para un ingenuo clasificador de Bayes : "una suposición típica es que los valores continuos asociados con cada clase se distribuyen de acuerdo con una distribución gaussiana".
Entiendo que una distribución gaussiana es conveniente por razones analíticas. Sin embargo, ¿hay alguna otra razón en el mundo real para hacer esta suposición? ¿Qué sucede si la población consta de dos subpoblaciones (personas inteligentes / tontas, manzanas grandes / pequeñas)?
normal-distribution
lmsasu
fuente
fuente
Respuestas:
Al menos para mí, el supuesto de normalidad surge de dos razones (muy poderosas):
El teorema del límite central.
La distribución gaussiana es una distribución de entropía máxima (con respecto a la versión continua de la entropía de Shannon).
Creo que conoce el primer punto: si su muestra es la suma de muchos procesos, entonces, siempre y cuando se cumplan algunas condiciones leves, la distribución es bastante gaussiana (hay generalizaciones de la CLT donde de hecho no hay que suponer que los rvs de la suma están distribuidos de manera idéntica, ver, por ejemplo, el Lyapunov CLT).
El segundo punto es uno que para algunas personas (especialmente los físicos) tiene más sentido: dado el primer y segundo momento de una distribución, la distribución que asume menos información (es decir, la más conservadora) con respecto a la medida de entropía continua de Shannon (que es algo arbitrario en el caso continuo, pero, al menos para mí, totalmente objetivo en el caso discreto, pero esa es otra historia), es la distribución gaussiana. Esta es una forma del llamado "principio de máxima entropía", que no está tan extendido porque el uso real de la forma de la entropía es algo arbitrario (consulte este artículo de Wikipedia para obtener más información sobre esta medida ).
PD: Debo agregar al principio de máxima entropía que, de acuerdo con este documento , si conoce el rango de variación de su variable, debe hacer ajustes a la distribución que obtiene por el principio de máxima entropía.
fuente
Mi respuesta está de acuerdo con el primer respondedor. El teorema del límite central le dice que si su estadística es una suma o promedio, será aproximadamente normal bajo ciertas condiciones técnicas, independientemente de la distribución de las muestras individuales. Pero tiene razón en que a veces las personas llevan esto demasiado lejos simplemente porque parece conveniente. Si su estadística es una relación y el denominador puede ser cero o cercano a ella, la relación será demasiado pesada para lo normal. Gosset descubrió que incluso cuando muestrea de una distribución normal, un promedio normalizado donde se usa la desviación estándar de la muestra para la constante de normalización, la distribución es la distribución t con n-1 grados de libertad cuando n es el tamaño de la muestra. En sus experimentos de campo en la cervecería Guiness, tiene tamaños de muestra que podrían estar en el rango de 5-10. En esos casos, la distribución t es similar a la distribución normal estándar, ya que es simétrica alrededor de 0 pero tiene colas mucho más pesadas. Tenga en cuenta que la distribución t converge a la normal estándar a medida que n aumenta. En muchos casos, la distribución que tiene puede ser bimodal, ya que es una mezcla de dos poblaciones. Algunas veces estas distribuciones pueden ajustarse como una mezcla de distribuciones normales. Pero seguro que no se ven como una distribución normal. Si observa un libro de texto de estadísticas básicas, encontrará muchas distribuciones paramétricas continuas y discretas que a menudo surgen en problemas de inferencia. Para datos discretos, tenemos el binomio binomial, Poisson, geométrico, hipergeométrico y negativo, por nombrar algunos. Los ejemplos continuos incluyen chi cuadrado, lognormal, Cauchy, exponencial negativo, Weibull y Gumbel.
fuente
El uso del CLT para justificar el uso de la distribución gaussiana es una falacia común porque el CLT se aplica a la media de la muestra, no a las observaciones individuales. Por lo tanto, aumentar el tamaño de la muestra no significa que la muestra esté más cerca de la normalidad.
La distribución gaussiana se usa comúnmente porque:
Por supuesto, la mejor opción es usar una distribución que tenga en cuenta las características de su contexto, pero esto puede ser un desafío. Sin embargo, es algo que la gente debería hacer
"Todo debe hacerse lo más simple posible, pero no más simple". (Albert Einstein)
Espero que esto ayude.
Los mejores deseos.
fuente