La distribución beta aparece bajo dos parametrizaciones (o aquí )
o el que parece ser usado más comúnmente
Pero, ¿por qué exactamente hay " " en la segunda fórmula?
La primera formulación parece corresponder intuitivamente más directamente a la distribución binomial
pero "visto" desde la perspectiva de . Esto es especialmente claro en el modelo beta-binomial donde puede entenderse como un número anterior de éxitos y es un número anterior de fracasos.
Entonces, ¿por qué exactamente la segunda forma ganó popularidad y cuál es la razón detrás de ella? ¿Cuáles son las consecuencias de usar cualquiera de las parametrizaciones (por ejemplo, para la conexión con la distribución binomial)?
Sería genial si alguien pudiera señalar adicionalmente los orígenes de tal elección y los argumentos iniciales para ello, pero no es una necesidad para mí.
Respuestas:
Esta es una historia sobre grados de libertad y parámetros estadísticos y por qué es bueno que los dos tengan una conexión directa simple.
Históricamente, los términos " " aparecieron en los estudios de Euler sobre la función Beta. Estaba usando esa parametrización en 1763, y también Adrien-Marie Legendre: su uso estableció la convención matemática posterior. Este trabajo es anterior a todas las aplicaciones estadísticas conocidas.−1
La teoría matemática moderna proporciona amplias indicaciones, a través de la gran cantidad de aplicaciones en análisis, teoría de números y geometría, que el "−1 términos " en realidad tienen algún significado. He esbozado algunas de esas razones en los comentarios a la pregunta.
De mayor interés es cuál debería ser la parametrización estadística "correcta". Eso no es tan claro y no tiene que ser lo mismo que la convención matemática. Existe una enorme red de familias de distribuciones de probabilidad interrelacionadas, conocidas y de uso común. Por lo tanto, las convenciones usadas para nombrar (es decir, parametrizar) una familia típicamente implican convenciones relacionadas para nombrar familias relacionadas. Cambie una parametrización y querrá cambiarlas todas. Por lo tanto, podríamos mirar estas relaciones en busca de pistas.
Pocas personas no estarían de acuerdo con que las familias de distribución más importantes se derivan de la familia Normal. Recordemos que una variable aleatoria se dice que es "distribuyen normalmente" cuando ( X - μ ) / σ tiene una densidad de probabilidad f ( x ) proporcional a exp ( - x 2 / 2 ) . Cuando σ = 1 y μ = 0 , se dice que X tiene una distribución normal estándar .X (X−μ)/σ f(x) exp(−x2/2) σ=1 μ=0 X
Muchos conjuntos de datos se estudian utilizando estadísticas relativamente simples que involucran combinaciones racionales de los datos y bajas potencias (típicamente cuadrados). Cuando esos datos se modelan como muestras aleatorias de una distribución Normal, de modo que cada x i se ve como una realización de una variable Normal X i , todas las X i comparten una distribución común y son independientes: las distribuciones de esas estadísticas están determinados por esa distribución Normal. Los que surgen con mayor frecuencia en la práctica sonx1,x2,…,xn xi Xi Xi
,ladistribución t de Studentcon ν = n - 1tν t ν=n−1 "grados de libertad". Esta es la distribución de la estadística donde ˉ X =(X1+X2+⋯+Xn)/nmodela la media de los datos yse(X)=(1/√
,ladistribución χ 2 (chi-cuadrado)con ν "grados de libertad" (df). Esta es la distribución de la suma de cuadrados de ν variables normales estándar independientes. Por lo tanto, la distribución de la media de los cuadrados de estas variables será unadistribución χ 2 escalada por 1 / ν : me referiré a esto como unadistribución normal 2 "normalizada".χ2ν χ2 ν ν χ2 1/ν χ2
,ladistribución de la relación F con parámetros ( ν 1 , ν 2 ) es la relación de dosdistribucionesindependientes ized 2 normalizadasconFν1,ν2 F (ν1,ν2) χ2 y ν 2 grados de libertad.ν1 ν2
Los cálculos matemáticos muestran que las tres distribuciones tienen densidades. Es importante destacar que la densidad de la distribución es proporcional al integrando en la definición integral de Euler de la función Gamma ( Γ ). Vamos a compararlos:χ2ν Γ
This shows that twice aχ2ν variable has a Gamma distribution with parameter ν/2 . The factor of one-half is bothersome enough, but subtracting 1 would make the relationship much worse. This already supplies a compelling answer to the question: if we want the parameter of a χ2 distribution to count the number of squared Normal variables that produce it (up to a factor of 1/2 ), then the exponent in its density function must be one less than half that count.
Why is the factor of1/2 less troublesome than a difference of 1 ? The reason is that the factor will remain consistent when we add things up. If the sum of squares of n independent standard Normals is proportional to a Gamma distribution with parameter n (times some factor), then the sum of squares of m independent standard Normals is proportional to a Gamma distribution with parameter m (times the same factor), whence the sum of squares of all n+m variables is proportional to a Gamma distribution with parameter m+n (still times the same factor). The fact that adding the parameters so closely emulates adding the counts is very helpful.
If, however, we were to remove that pesky-looking "−1 " from the mathematical formulas, these nice relationships would become more complicated. For example, if we changed the parameterization of Gamma distributions to refer to the actual power of x in the formula, so that a χ21 distribution would be related to a "Gamma(0) " distribution (since the power of x in its PDF is 1−1=0 ), then the sum of three χ21 distributions would have to be called a "Gamma(2) " distribution. In short, the close additive relationship between degrees of freedom and the parameter in Gamma distributions would be lost by removing the −1 from the formula and absorbing it in the parameter.
Furthermore--taking these ideas full circle--the square of a Studentt distribution with ν d.f. has an F ratio distribution with parameters (1,ν) . Once more it is apparent that keeping the conventional parameterization maintains a clear relationship with the underlying counts that contribute to the degrees of freedom.
fuente
The notation is misleading you. There is a "hidden−1 " in your formula (1) , because in (1) , α and β must be bigger than −1 (the second link you provided in your question says this explicitly). The α 's and β 's in the two formulas are not the same parameters; they have different ranges: in (1) , α,β>−1 , and in (2) , α,β>0 . These ranges for α and β are necessary to guarantee that the integral of the density doesn't diverge. To see this, consider in (1) the case α=−1 (or less) and β=0 , then try to integrate the (kernel of the) density between 0 and 1 . Equivalently, try the same in (2) for α=0 (or less) and β=1 .
fuente
For me, the existence of -1 in the exponent is related with the develpment of the Gamma function. The motivation of the Gamma function is to find a smooth curve to connect the points of a factorialx! . Since it is not possible to compute x! directly if x is not integer, the idea was to find a function for any x≥0 that satisfies the recurrence relation defined by the factorial, namely
Solution was by means of the convergence of an integral. For the function defined as
integration by parts provides the following:
So, the function above satisfies this property, and the -1 in the exponent derives from the procedure of integration by parts. See the Wikipedia article https://en.wikipedia.org/wiki/Gamma_function .
Edit: I apologise if my post is not fully clear; I am just trying to point that, in my idea, the existence of -1 in the beta distribution comes from the generalisation of the factorial by means of the Gamma function. There are two conditions:f(1)=1 and f(x+1)=x⋅f(x) . We have Γ(x)=(x−1)! , therefore it satisfies Γ(x+1)=x⋅Γ(x)=x⋅(x−1)!=x! . In addition, we have Γ(1)=(1−1)!=0!=1 . As for the beta distribution with parameters α,β , generalisation of the Binomial coefficient is Γ(α+β)Γ(α)⋅Γ(β)=(α+β−1)!(α−1)!⋅(β−1)! . There we have the -1 in the denominator, for both parameters.
fuente