¿Por qué hay -1 en la función de densidad de distribución beta?

18

La distribución beta aparece bajo dos parametrizaciones (o aquí )

(1)f(x)xα(1x)β

o el que parece ser usado más comúnmente

(2)f(x)xα1(1x)β1

Pero, ¿por qué exactamente hay " 1 " en la segunda fórmula?

La primera formulación parece corresponder intuitivamente más directamente a la distribución binomial

(3)g(k)pk(1p)nk

pero "visto" desde la perspectiva de p . Esto es especialmente claro en el modelo beta-binomial donde α puede entenderse como un número anterior de éxitos y β es un número anterior de fracasos.

Entonces, ¿por qué exactamente la segunda forma ganó popularidad y cuál es la razón detrás de ella? ¿Cuáles son las consecuencias de usar cualquiera de las parametrizaciones (por ejemplo, para la conexión con la distribución binomial)?

Sería genial si alguien pudiera señalar adicionalmente los orígenes de tal elección y los argumentos iniciales para ello, pero no es una necesidad para mí.

Tim
fuente
3
En esta respuesta se insinúa una razón profunda : es igual a x α ( 1 - x ) β en relación con la medida d μ = d x / ( ( x ( 1 - x ) ) . Eso reduce su pregunta a "por qué esa medida en particular "? Reconociendo que esta medida es d μ = d ( log ( xfxα(1x)βdμ=dx/((x(1x))sugiere que la forma "correcta" de comprender estas distribuciones es aplicar la transformación logística: lostérminos"-1" desaparecerán.
dμ=d(log(x1x))
1
whuber
1
Creo que la razón real por la que sucedió es la histórica, porque aparece de esa manera en la función beta para la que se nombra la distribución. En cuanto a la razón por la que tiene en el poder, espero que en última instancia se conectaría a la razón whuber menciona (aunque históricamente no tiene nada que ver con la medida o incluso de probabilidad). 1
Glen_b -Reinstale a Monica
2
@Glen_b Es más que histórico: hay razones profundas. Se deben a la conexión íntima entre las funciones Beta y Gamma, lo que reduce la pregunta de por qué el exponente en es s - 1 y no s . Eso es porque Γ es una suma de Gauss . De manera equivalente, es "correcto" ver Γ como una integral de un homomorfismo multiplicativo t t sΓ(s)=0ts1etdts1sΓΓtts veces un carácter aditivo contra la medida de Haar d t / t en el grupo multiplicativo R × . tetdt/tR×
whuber
1
@wh Esa es una buena razón por la cual la función gamma debería elegirse de esa manera (y ya sugerí que tal razón existía anteriormente y acepto alguna forma de razonamiento similar a eso, pero necesariamente con un formalismo diferente) entró en la elección de Euler); razones correspondientemente convincentes ocurren con la densidad; pero eso no establece que esta sea realmente la razón de la elección (por qué se eligió la forma como estaba), solo que es una buena razón para hacerlo. La forma de la función gamma ...
ctd
1
ctd ... solo podría ser una razón suficiente para elegir esa forma para la densidad y para que otros sigan su ejemplo. [A menudo, las elecciones se toman por razones más simples que las que podemos identificar después y luego a menudo se necesitan razones convincentes para hacer cualquier otra cosa. ¿Sabemos que por eso se eligió inicialmente?], Usted explica claramente que hay una razón por la que deberíamos elegir la densidad de esa manera, en lugar de por qué es así. Eso implica una secuencia de personas que toman decisiones (para usarlo de esa manera y seguir su ejemplo), y sus razones en el momento que elijan.
Glen_b -Reinstale a Monica

Respuestas:

9

Esta es una historia sobre grados de libertad y parámetros estadísticos y por qué es bueno que los dos tengan una conexión directa simple.

Históricamente, los términos " " aparecieron en los estudios de Euler sobre la función Beta. Estaba usando esa parametrización en 1763, y también Adrien-Marie Legendre: su uso estableció la convención matemática posterior. Este trabajo es anterior a todas las aplicaciones estadísticas conocidas.1

La teoría matemática moderna proporciona amplias indicaciones, a través de la gran cantidad de aplicaciones en análisis, teoría de números y geometría, que el " 1 términos " en realidad tienen algún significado. He esbozado algunas de esas razones en los comentarios a la pregunta.

De mayor interés es cuál debería ser la parametrización estadística "correcta". Eso no es tan claro y no tiene que ser lo mismo que la convención matemática. Existe una enorme red de familias de distribuciones de probabilidad interrelacionadas, conocidas y de uso común. Por lo tanto, las convenciones usadas para nombrar (es decir, parametrizar) una familia típicamente implican convenciones relacionadas para nombrar familias relacionadas. Cambie una parametrización y querrá cambiarlas todas. Por lo tanto, podríamos mirar estas relaciones en busca de pistas.

Pocas personas no estarían de acuerdo con que las familias de distribución más importantes se derivan de la familia Normal. Recordemos que una variable aleatoria se dice que es "distribuyen normalmente" cuando ( X - μ ) / σ tiene una densidad de probabilidad f ( x ) proporcional a exp ( - x 2 / 2 ) . Cuando σ = 1 y μ = 0 , se dice que X tiene una distribución normal estándar .X(Xμ)/σf(x)exp(x2/2)σ=1μ=0X

Muchos conjuntos de datos se estudian utilizando estadísticas relativamente simples que involucran combinaciones racionales de los datos y bajas potencias (típicamente cuadrados). Cuando esos datos se modelan como muestras aleatorias de una distribución Normal, de modo que cada x i se ve como una realización de una variable Normal X i , todas las X i comparten una distribución común y son independientes: las distribuciones de esas estadísticas están determinados por esa distribución Normal. Los que surgen con mayor frecuencia en la práctica sonx1,x2,,xnxiXiXi

  1. ,ladistribución t de Studentcon ν = n - 1tνtν=n1 "grados de libertad". Esta es la distribución de la estadística donde ˉ X =(X1+X2++Xn)/nmodela la media de los datos yse(X)=(1/

    t=X¯se(X)
    X¯=(X1+X2++Xn)/n es el error estándar de la media. La división porn-1muestra quendebe ser2o mayor, de dondeνes un entero1o mayor. La fórmula, aunque aparentemente un poco complicada, es la raíz cuadrada de una función racional de los datos de grado dos: es relativamente simple.se(X)=(1/n)(X12+X22++Xn2)/(n1)X¯2n1n2ν1
  2. ,ladistribución χ 2 (chi-cuadrado)con ν "grados de libertad" (df). Esta es la distribución de la suma de cuadrados de ν variables normales estándar independientes. Por lo tanto, la distribución de la media de los cuadrados de estas variables será unadistribución χ 2 escalada por 1 / ν : me referiré a esto como unadistribución normal 2 "normalizada".χν2χ2ννχ21/νχ2

  3. ,ladistribución de la relación F con parámetros ( ν 1 , ν 2 ) es la relación de dosdistribucionesindependientes ized 2 normalizadasconFν1,ν2F(ν1,ν2)χ2 y ν 2 grados de libertad.ν1ν2

Los cálculos matemáticos muestran que las tres distribuciones tienen densidades. Es importante destacar que la densidad de la distribución es proporcional al integrando en la definición integral de Euler de la función Gamma ( Γ ). Vamos a compararlos:χν2Γ

fχν2(2x)xν/21ex;fΓ(ν)(x)xν1ex.

This shows that twice a χν2 variable has a Gamma distribution with parameter ν/2. The factor of one-half is bothersome enough, but subtracting 1 would make the relationship much worse. This already supplies a compelling answer to the question: if we want the parameter of a χ2 distribution to count the number of squared Normal variables that produce it (up to a factor of 1/2), then the exponent in its density function must be one less than half that count.

Why is the factor of 1/2 less troublesome than a difference of 1? The reason is that the factor will remain consistent when we add things up. If the sum of squares of n independent standard Normals is proportional to a Gamma distribution with parameter n (times some factor), then the sum of squares of m independent standard Normals is proportional to a Gamma distribution with parameter m (times the same factor), whence the sum of squares of all n+m variables is proportional to a Gamma distribution with parameter m+n (still times the same factor). The fact that adding the parameters so closely emulates adding the counts is very helpful.

If, however, we were to remove that pesky-looking "1" from the mathematical formulas, these nice relationships would become more complicated. For example, if we changed the parameterization of Gamma distributions to refer to the actual power of x in the formula, so that a χ12 distribution would be related to a "Gamma(0)" distribution (since the power of x in its PDF is 11=0), then the sum of three χ12 distributions would have to be called a "Gamma(2)" distribution. In short, the close additive relationship between degrees of freedom and the parameter in Gamma distributions would be lost by removing the 1 from the formula and absorbing it in the parameter.

FYFZ=ν1Y/(ν1Y+ν2) has a Beta(ν1/2,ν2/2) distribution. Its density function is proportional to

fZ(z)zν1/21(1z)ν2/21.

Furthermore--taking these ideas full circle--the square of a Student t distribution with ν d.f. has an F ratio distribution with parameters (1,ν). Once more it is apparent that keeping the conventional parameterization maintains a clear relationship with the underlying counts that contribute to the degrees of freedom.

ΓΓ(α) distribution a "Γ(2α) distribution" and the Beta(α,β) distribution ought to be called a "Beta(2α,2β) distribution." In fact, we have already done that: this is precisely why we continue to use the names "Chi-squared" and "F Ratio" distribution instead of "Gamma" and "Beta". Regardless, in no case would we want to remove the "1" terms that appear in the mathematical formulas for their densities. If we did that, we would lose the direct connection between the parameters in the densities and the data counts with which they are associated: we would always be off by one.

whuber
fuente
1
Thanks for your answer (I +1d already). I have just a small follow-up question: maybe I'm missing something, but aren't we sacrificing the direct relation with binomial by using the -1 parametrization?
Tim
I'm not sure which "direct relation with binomial" you're referring to, Tim. For instance, when the Beta(a,b) distribution is used as a conjugate prior for a Binomial sample, clearly the parameters are exactly the right ones to use: you add a (not a1) to the number of successes and b (not b1) to the number of failures.
whuber
1

The notation is misleading you. There is a "hidden 1" in your formula (1), because in (1), α and β must be bigger than 1 (the second link you provided in your question says this explicitly). The α's and β's in the two formulas are not the same parameters; they have different ranges: in (1), α,β>1, and in (2), α,β>0. These ranges for α and β are necessary to guarantee that the integral of the density doesn't diverge. To see this, consider in (1) the case α=1 (or less) and β=0, then try to integrate the (kernel of the) density between 0 and 1. Equivalently, try the same in (2) for α=0 (or less) and β=1.

Zen
fuente
2
The issue of a range of definition for α and β seems to go away when the integral is interpreted, as Pochhammer did in 1890, as a specific contour integral. In that case it can be equated to an expression that determines an analytic function for all values of α and β--including all complex ones. This throws light on the concern in the question: why exactly has this specific parameterization been adopted, given there are many other possible parameterizations that seem like they might serve equally well?
whuber
1
To me, the OP's doubt seems to be much more basic. He's kind of confused about the "-1" in (2), but not in (1) (not true, of course). It seems that your comment is answering a different question (much more interesting, by the way).
Zen
2
Thanks for your effort and answer, but it still does not answer my main concern: why -1 was chosen? Following your logic, basically any value could be chosen changing the arbitrary lower bound to something else. I can't see why -1 or 0 could be better or worse lower bound for parameter values besides the fact that 0 is "aesthetically" nicer bound. On another hand, Beta(0, 0) would be nice "default" for uniform distribution when using the first form. Yes, those are very subjective comments, but that is my main point: are there any non-arbitrary reasons for such choice?
Tim
1
Zen, I agree there was a question of how to interpret the original post. Thank you, Tim, for your clarifications.
whuber
1
Hi, Tim! I don't see any definitive reason, although it makes more direct the connection with the fact that for α,β>0, if UGamma(α,1) and VGamma(β,1) are independent, then X=U/(U+V) is Beta(α,β), and the density of X is proportional to xα1(1x)β1. But then you can question the parameterization of the gamma distribution...
Zen
0

For me, the existence of -1 in the exponent is related with the develpment of the Gamma function. The motivation of the Gamma function is to find a smooth curve to connect the points of a factorial x!. Since it is not possible to compute x! directly if x is not integer, the idea was to find a function for any x0 that satisfies the recurrence relation defined by the factorial, namely

f(1)=1f(x+1)=xf(x).

Solution was by means of the convergence of an integral. For the function defined as

f(x+1)=0txexdt,

integration by parts provides the following:

f(x+1)=0txexdt=[txex]0+0xtx1exdt=limx(txex)0e0+x0tx1exdt=00+x0tx1exdt=xf(x).

So, the function above satisfies this property, and the -1 in the exponent derives from the procedure of integration by parts. See the Wikipedia article https://en.wikipedia.org/wiki/Gamma_function .

Edit: I apologise if my post is not fully clear; I am just trying to point that, in my idea, the existence of -1 in the beta distribution comes from the generalisation of the factorial by means of the Gamma function. There are two conditions: f(1)=1 and f(x+1)=xf(x). We have Γ(x)=(x1)!, therefore it satisfies Γ(x+1)=xΓ(x)=x(x1)!=x!. In addition, we have Γ(1)=(11)!=0!=1. As for the beta distribution with parameters α,β, generalisation of the Binomial coefficient is Γ(α+β)Γ(α)Γ(β)=(α+β1)!(α1)!(β1)!. There we have the -1 in the denominator, for both parameters.

aatr
fuente
This makes no sense because the recurrence function satisfied by the factorial is not what you state: (x+1)!xx!.
whuber
The function f(x) satisfying the recurrence relation is the Gamma: Γ(x+1)=xΓ(x). This is how it is defined.
aatr
Yes: but your stated motivation is based on the factorial function, not the Gamma.
whuber
It is important to recall the relation between Gamma and factorial: Γ(x)=(x1)!.
aatr
Unfortunately, that's circular logic: you start off with the factorial, characterize Gamma as interpolating it, and then conclude that's why there's a -1. In fact, your post exhibits the -1 as if it fell out mistakenly by confusing Gamma with the factorial. Few will find that either illuminating or convincing.
whuber