¿De dónde viene la distribución beta?

Como estoy seguro de que todos aquí ya lo saben, el PDF de la distribución Beta está dado por $X \sim B(a,b)$

$f(x) = \frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1}$

He estado buscando por todo el lugar una explicación de los orígenes de esta fórmula, pero no puedo encontrarla. Todos los artículos que he encontrado en la distribución Beta parecen dar esta fórmula, ilustran algunas de sus formas, luego continúan discutiendo sus momentos y desde allí.

No me gusta usar fórmulas matemáticas que no puedo derivar y explicar. Para otras distribuciones (por ejemplo, el gamma o el binomio) hay una clara derivación que puedo aprender y usar. Pero no puedo encontrar algo así para la distribución Beta.

Entonces mi pregunta es: ¿cuáles son los orígenes de esta fórmula? ¿Cómo puede derivarse de los primeros principios en cualquier contexto en el que se desarrolló originalmente?

[Para aclarar, no estoy preguntando cómo usar la distribución Beta en las estadísticas bayesianas, o qué significa intuitivamente en la práctica (he leído el ejemplo del béisbol). Solo quiero saber cómo derivar el PDF. Hubo una pregunta anterior que preguntaba algo similar, pero se marcó (creo que incorrectamente) como un duplicado de otra pregunta que no abordó el problema, por lo que no he podido encontrar ayuda aquí hasta ahora.]

EDITAR 2017-05-06: Gracias a todos por las preguntas. Creo que una buena explicación de lo que quiero proviene de una de las respuestas que obtuve cuando le pregunté a algunos de mis instructores del curso:

"Supongo que las personas podrían derivar la densidad normal como un límite de una suma de n cosas divididas por sqrt (n), y usted puede derivar la densidad de Poisson a partir de la idea de que los eventos ocurran a una velocidad constante. Del mismo modo, para derivar el densidad beta, tendrías que tener una idea de lo que hace que una distribución beta sea independiente y lógicamente anterior a la densidad ".

Entonces, la idea "ab initio" en los comentarios es probablemente la más cercana a lo que estoy buscando. No soy matemático, pero me siento más cómodo usando las matemáticas que puedo obtener. Si los orígenes son demasiado avanzados para que yo pueda manejarlos, que así sea, pero si no, me gustaría entenderlos.

probability mathematical-statistics pdf beta-distribution history Will Bradshaw
fuente

¿Derivado de qué? Si el enfoque binomial-conjugado-anterior no es aceptable, hay varias alternativas aquí (por ejemplo, estadísticas de orden de una variable aleatoria uniforme, proporciones de variables Gamma).

GeoMatt22

Nota: ¡toda la historia de la distribución Beta se proporciona en la increíble página de Wikipedia en esta distribución, que contiene casi todos los detalles posibles!

Xi'an

La pregunta anterior se marcó como un duplicado de la otra después de que el OP aclaró lo que buscaban en un comentario. whuber hizo la misma pregunta allí que @ Geomatt22 hace aquí: "Una derivación significa una conexión lógica de algo asumido a algo por establecerse. ¿Qué quieres asumir ?"

Scortchi - Restablece a Monica

@Aksakal, pero la pregunta es demasiado amplia: puede derivarse de muchas maneras; si tiene razón, lo cerraré como demasiado amplio hasta que la pregunta se reduzca lo suficiente como para ser algo más que una bolsa de respuestas posibles

Glen_b: reinstale a Monica

Aquí hay una breve discusión de un pequeño contexto histórico (al menos en términos de su relación con la función beta incompleta). Tiene conexiones con la distribución gamma y muchas, muchas otras distribuciones además y surge de manera bastante razonable de varias maneras diferentes; Como señala Xi'an, también tiene orígenes históricos en el sistema Pearson . ¿Qué tipo de respuesta estás buscando aquí? ¿Qué se da / qué se debe derivar?

Glen_b: reinstala a Monica

Respuestas:

Como ex físico, puedo ver cómo podría haberse derivado. Así es como proceden los físicos:

cuando encuentran una integral finita de una función positiva, como la función beta : definen instintivamente una densidad: donde

B (x, y) = \int_{0}^{1} t^{x - 1} (1 - t)^{y - 1} d t

$B(x,y) = \int_0^1t^{x-1}(1-t)^{y-1}\,dt$

F (s El | X, y) = \frac{s^{X - 1} (1 - s)^{y - 1}}{\int_{0 0}^{1} t^{X - 1} (1 - t)^{y - 1} re t} = \frac{s^{X - 1} (1 - s)^{y - 1}}{si (X, y)},

$f(s|x,y)=\frac{s^{x-1}(1-s)^{y-1}}{\int_0^1t^{x-1}(1-t)^{y-1}\,dt}=\frac{s^{x-1}(1-s)^{y-1}}{B(x,y)},$

0 < s < 1

$0<s<1$

Le hacen esto a todo tipo de integrales todo el tiempo con tanta frecuencia que ocurre de forma reflexiva sin siquiera pensar. Llaman a este procedimiento "normalización" o nombres similares. Observe cómo, por definición, trivialmente la densidad tiene todas las propiedades que desea que tenga, como siempre positiva y suma una.

La densidad que di arriba es de distribución Beta. $f(t)$

ACTUALIZAR

@ whuber pregunta qué tiene de especial la distribución Beta, mientras que la lógica anterior podría aplicarse a un número infinito de integrales adecuadas (como señalé en mi respuesta anterior).

La parte especial proviene de la distribución binomial . Escribiré su PDF usando una notación similar a mi beta, no la notación habitual para parámetros y variables:

F^{'} (X, y El | s) = (\binom{y + X}{X}) s^{X} (1 - s)^{y}

$f'(x,y|s) = \binom {y+x} x s^x(1-s)^{y}$

Aquí, - número de éxitos y fracasos, y - probabilidad de éxito. Puede ver cómo esto es muy similar al numerador en la distribución Beta. De hecho, si busca la distribución Binomial anterior, será la distribución Beta. No es sorprendente también porque el dominio de Beta es 0 a 1, y eso es lo que haces en el teorema de Bayes: integrar sobre el parámetro , que es la probabilidad de éxito en este caso como se muestra a continuación: aquí - probabilidad (densidad) de probabilidad de éxito dada la configuración previa de la distribución Beta y $x,y$ $s$ $s$

\hat{f} (x | X) = \frac{f^{'} (X | s) f (s)}{\int_{0}^{1} f^{'} (X | s) f (s) d s},

$\hat f(x|X)=\frac{f'(X|s)f(s)}{\int_0^1 f'(X|s)f(s)ds},$

f (s)

$f(s)$

f^{'} (X | s)

$f'(X|s)$ - densidad de este conjunto de datos (es decir, éxitos y fracasos observados) dada una probabilidad .

s

$s$

Aksakal
fuente

@ Xi'an OP no parece estar interesado en la historia.

Aksakal

"La explicación de los orígenes de esta fórmula ... en cualquier contexto en el que se desarrolló originalmente" me suena a historia :-).

whuber

Creo que uno puede estar interesado tanto en la historia como en los primeros principios al mismo tiempo. :-) Aunque su respuesta es matemáticamente correcta, desafortunadamente es demasiado general: se puede hacer una densidad de cualquier función no negativa con integral finita. Entonces, ¿qué tiene de especial esta familia particular de distribuciones? Como tal, su enfoque no parece satisfacer ninguno de los puntos de vista.

whuber

@WillBradshaw, sí. Normalmente, consideramos la distribución binomial en función del número de fallas (o éxitos) dada la probabilidad y el número de ensayos como parámetros. De esta manera es una distribución discreta . Sin embargo, si lo ve como una función de probabilidades dado el número de éxitos y fracasos como parámetros, entonces se convierte en distribución Beta una vez que lo vuelve a escalar, una distribución continua , por cierto.

Aksakal

El artículo de Wikipedia sobre la distribución Beta lo rastrea hasta Karl Pearson, exactamente como lo sugiere @ Xi'an. Stigler, en su Historia de la estadística: la medición de la incertidumbre antes de 1900 , da una breve descripción de la derivación de Pearson utilizando la notación moderna.

whuber

Thomas Bayes (1763) derivó la distribución Beta [sin usar este nombre] como el primer ejemplo de distribución posterior , anterior al trabajo de Leonhard Euler (1766) sobre la integral Beta señalado por Glen_b por unos años, pero la integral también aparece en Euler (1729 o 1738) [Opera Omnia, I14, 1 {24] como una forma de generalizar la función factorial que puede ser la razón por la normalización Beta constante también se llama la función Euler . Davies $-$ $B(a,b)$ $-$ Menciona Wallis (1616-1703), Newton (1642-1726) y Stirling (1692-1770) que tratan casos especiales de la integral incluso antes. Karl Pearson (1895) catalogó por primera vez esta familia de distribuciones como Pearson Tipo I .

Aunque históricamente no apareció en ese orden, una entrada intuitiva a la distribución Beta es a través de la distribución Fisher , que corresponde a la distribución de una relación donde deliberadamente las anotaciones habituales para estimadores de varianza, ya que así es como esta distribución apareció y estaba motivado, para probar la igualdad de dos variaciones. Entonces mientras que, por el contrario, si , entonces Encontrar la densidad de a $F(p,q)$

ϱ = {\hat{σ}}_{1}^{2} / / {\hat{σ}}_{2}^{2} pag {\hat{σ}}_{1}^{2} \sim χ_{pag}^{2} q {\hat{σ}}_{1}^{2} \sim χ_{q}^{2}

$\varrho=\hat\sigma^2_1\big/\hat\sigma_2^2\qquad p\hat\sigma_1^2\sim\chi^2_p\quad q\hat\sigma_1^2\sim\chi^2_q$

\frac{pag ϱ}{q + pag ϱ} \sim si (pag / / 2, q / / 2)

$\frac{p\varrho}{q+p\varrho}\sim B(p/2,q/2)$

ω \sim B (a, b)

$\omega\sim B(a,b)$

\frac{ω / / un}{(1 - ω) / / si} \sim F (2 un, 2 si)

$\dfrac{\omega/a}{(1-\omega)/b}\sim F(2a,2b)$

B (a, b)

$B(a,b)$ Por lo tanto, la distribución es un cambio de paso variable: a partir de la densidad de una distribución , y considerando el cambio de la variable que se invierte en el jacobiano es conduce a la densidad de la transformación [donde todas las constantes de normalización se obtienen imponiendo que la densidad se integre a una.

F (p, q)

$F(p,q)$

f_{p, q} (x) \propto {p x / q}^{p / 2 - 1} (1 + p x / q)^{- (p + q) / 2}

Xi'an
fuente

+1. Vale la pena señalar que K. Pearson no simplemente "catalogó" las distribuciones Beta: las derivó a través de soluciones de una familia de ecuaciones diferenciales inspiradas en una relación que observó entre las ecuaciones de diferencia para el Binomial y las ecuaciones diferenciales para la distribución Normal. La generalización de la ecuación de diferencia binomial a la distribución hipergeométrica produjo una generalización de la ecuación diferencial, cuyas soluciones incluyeron las distribuciones Beta "Tipo I" y "Tipo II". Este es precisamente el tipo de derivación ab initio que el OP parece estar buscando.

whuber

Creo que puedo aprender mucho estudiando esta respuesta. Es demasiado avanzado para mí en este momento, pero cuando tenga tiempo volveré e investigaré los temas que mencionas, luego intentaré de nuevo entenderlo. Muchas gracias. :)

Will Bradshaw

En primer lugar, no soy bueno en descripciones matemáticamente precisas de conceptos en mi cabeza, pero haré lo mejor que pueda con un ejemplo simple:

Imagina que tienes un arco, muchas flechas y un objetivo. Digamos además que su índice de aciertos (para alcanzar el objetivo) es precisamente una función de la distancia al centro del objetivo y de la siguiente forma donde x es la distancia al centro del objetivo ( ). Para esto sería una aproximación de primer orden de un gaussiano. Eso significaría que con mayor frecuencia le das al blanco. Del mismo modo, se aproxima a cualquier curva en forma de campana, por ejemplo, resultante de la difusión de partículas brownianas. $\lambda$

\begin{array}{rcl} λ = g (x) = λ_{m a x} - (q | x - x_{0} |)^{\frac{1}{q}}, q > 0, 0 \leq λ \leq λ_{m a x} \end{array}

$\begin{eqnarray} \lambda=g(x)=\lambda_{max}-(q|x-x_0|)^\frac{1}{q},~q > 0,~0 \leq \lambda \leq \lambda_{max} \end{eqnarray}$

x_{0}

$x_0$

q = 1 / 2

$q=1/2$

Ahora, supongamos además que alguien realmente valiente / estúpido intenta engañarte y desplaza al objetivo en cada disparo. De este modo, hacemos que sea una variable aleatoria. Si la distribución de los movimientos de esa persona puede describirse mediante una potencia (p-1) de (es decir, ), un simple La transformación de variables aleatorias (recuerde ) conduce a una Beta distribuida : $x_0$ $g(x)$ $P(x_0) = C\cdot g(x)^{p-1})$ $P(\lambda)d\lambda=P(x_0)dx_0$ $\lambda$

\begin{array}{rcl} PAG (λ) = PAG ({sol}^{- 1} (λ)) El | \frac{re {sol}^{- 1} (λ)}{re λ} El | = C^{'} \cdot λ^{pag - 1} \cdot (λ_{metro un X} - λ)^{q - 1} \end{array}

$\begin{eqnarray}P(\lambda) = P(g^{-1}(\lambda)) \biggl|\frac{dg^{-1}(\lambda)}{d\lambda}\biggl| = C' \cdot \lambda^{p-1} \cdot (\lambda_{max} - \lambda)^{q-1}\end{eqnarray}$

donde la constante de normalización es la función beta. Para la parametrización estándar de la distribución beta, estableceríamos . $C'$ $\lambda_{max} = 1$

En otras palabras, la distribución beta puede verse como la distribución de probabilidades en el centro de una distribución fluctuada.

Espero que esta derivación se acerque un poco a lo que su instructor quiso decir. Tenga en cuenta que las formas funcionales de y son muy flexibles y se extienden desde distribuciones en forma de triángulos y distribuciones en forma de U (ver ejemplo a continuación) hasta distribuciones puntiagudas. $g(x)$ $P(x_0)$

FYI: descubrí esto como un efecto secundario en mi trabajo de doctorado y lo informé en mi tesis en el contexto de las curvas de sintonización neural no estacionarias que conducen a distribuciones de recuento de picos inflados a cero (bimodal con un modo en cero). La aplicación del concepto descrito anteriormente produjo la distribución de la mezcla Beta-Poisson para la actividad neuronal. Esa distribución puede ajustarse a los datos. Los parámetros ajustados permiten estimar tanto la distribución como la distribución jitter aplicando las lógicas inversas. La mezcla Beta-Poisson es una alternativa muy interesante y flexible a la distribución binomial negativa ampliamente utilizada (que es una mezcla Gamma-Poisson) para modelar la sobredispersión. A continuación encontrará un ejemplo de "Jitter $g(x)$ $p(x_0)$ $\rightarrow$ Beta "- idea en acción:

A : desplazamiento de prueba 1D simulado, extraído de la distribución de jitter en el recuadro ( ). El campo de disparo promediado de prueba (línea negra continua) es más amplio y tiene una tasa de pico más baja en comparación con la curva de sintonización subyacente sin fluctuación (línea azul continua, parámetros utilizados: . B : La distribución resultante de en en N = 100 ensayos y el pdf analítico de la distribución Beta. C : Distribución simulada de recuento de picos de un proceso de Poisson con parámetros donde los índices de los ensayos y la distribución resultante de Beta-Poisson derivada como se bosquejó anteriormente. $P(jitter)\propto g(x)^{p-1}$ $\lambda_{max} = 10, p = .6, q=.5$ $\lambda$ $x_0$ $\lambda_i$ D : Situación análoga en 2D con ángulos de desplazamiento aleatorios que conducen a estadísticas idénticas.

Jojo
fuente