Desde el curso de probabilidad elemental, las distribuciones de probabilidad como Gaussian, Poisson o exponencial tienen una buena motivación. Después de observar la fórmula de las distribuciones familiares exponenciales durante mucho tiempo, todavía no tengo ninguna intuición.
¿Alguien puede ayudarme a entender por qué lo necesitamos en primer lugar? ¿Cuáles son algunas de las ventajas de modelar una variable de respuesta como familia exponencial versus normal?
EDITAR: Por la familia exponencial, me refería a la clase general de distribuciones descrita aquí .
exponential-family
ciudadano del norte
fuente
fuente
Respuestas:
La familia exponencial es mucho más amplia que la normal. Por ejemplo, ¿cuál es la ventaja de usar un Poisson o un binomio en lugar de un normal? Una normalidad no sirve de mucho si tiene recuentos con una media baja. ¿Qué pasa si sus datos son continuos pero muy sesgados, tal vez veces o cantidades monetarias? La familia exponencial incluye el normal, el binomio, el Poisson y el Gamma como casos especiales (entre muchos otros)
Incorpora una amplia variedad de relaciones varianza-media .
Se deriva de tratar de responder una pregunta en la línea de "qué distribuciones son funciones de una estadística suficiente ", y así los modelos se pueden estimar a través de ML utilizando estadísticas suficientes muy simples; Esto incluye los modelos habituales disponibles en programas que se ajustan a modelos lineales generalizados. De hecho, la estadística suficiente ( ) es explícita en la función de densidad de familia exponencial.T( x )
Facilita el desacoplamiento de la relación entre la respuesta y el predictor de la distribución condicional de la respuesta (a través de las funciones de enlace). Por ejemplo, podría ajustar una relación de línea recta a un modelo que especifique que la respuesta condicional tiene una distribución gamma o una relación exponencial con una respuesta condicionalmente gaussiana en un marco GLM.
Para los bayesianos, la familia exponencial es bastante interesante porque todos los miembros de la familia exponencial tienen antecedentes conjugados.
fuente
Para mí, la principal motivación detrás de las distribuciones familiares exponenciales es que son las familias de distribución máxima de entropía, dado un conjunto de estadísticas suficientes y un apoyo. En otras palabras, son distribución mínima supuesta.
Por ejemplo, si solo mide la media y la varianza de la cantidad con valor real, la opción de modelado menos supuesta es una distribución normal.
Desde el punto de vista del cálculo, hay otras ventajas:
Están cerrados bajo "combinación de evidencia". Es decir, la combinación de dos probabilidades independientes de la misma familia exponencial siempre está en la misma familia exponencial y sus parámetros naturales son simplemente la suma de los parámetros naturales de sus componentes. Esto es conveniente para las estadísticas bayesianas.
El gradiente de la entropía cruzada entre dos distribuciones familiares exponenciales es la diferencia de sus parámetros de expectativa. Esto significa que una función de pérdida que es una entropía cruzada es la llamada función de pérdida coincidente , que es conveniente para la optimización.
fuente
La lista de Glen es buena. Voy a agregar 1 aplicación más para complementar su respuesta: derivar los conjugados anteriores para la inferencia bayesiana.
Una parte central de la inferencia bayesiana es derivar distribuciones posteriores . Tener una previa que se conjuga con la probabilidad significa que la posterior y la pertenecerán a la misma clase de distribuciones de probabilidad.p ( θ | y) ∝ p ( yEl | θ)p(θ) p ( θ ) p ( yEl | θ) p ( yEl | θ) p ( θ )
La propiedad útil a la que me refiero es que, para una probabilidad de observaciones extraídas de una familia exponencial de un parámetro de la formanorte
simplemente podemos escribir un conjugado antes como
y luego el posterior funciona como
¿Por qué es útil esta conjugación? Porque simplifica nuestra interpretación y cálculo mientras realizamos la inferencia bayesiana. También significa que podemos encontrar fácilmente expresiones analíticas para la parte posterior sin tener que hacer demasiado álgebra.
fuente
Desea que su modelo de datos refleje el proceso de generación. El 'proceso' que genera variables gaussianas tiene características muy diferentes a las que rigen la exponencial, y no siempre es intuitivo el por qué. A veces es necesario apreciar otras características de distribución. Como un ejemplo, considere que la función de peligro para Gaussian está aumentando mientras que la exponencial es plana. Como un ejemplo práctico trivial, supongamos que voy a golpearte a intervalos, y el 'intervalo entre golpes' será elegido por la función generadora gaussiana o exponencial. Bajo un gaussiano, descubriría que los golpes son predecibles y se sienten altamente probables después de largos intervalos. Bajo exponencial, se sentirían muy impredecibles. La razón de esto se debe a la función generadora, que depende del fenómeno subyacente.
fuente