Soy más programador que estadístico, así que espero que esta pregunta no sea demasiado ingenua.
Sucede en las ejecuciones de programas de muestreo en momentos aleatorios. Si tomo N = 10 muestras de tiempo aleatorio del estado del programa, podría ver la función Foo ejecutándose en, por ejemplo, I = 3 de esas muestras. Estoy interesado en lo que me dice sobre la fracción de tiempo real F que Foo está en ejecución.
Entiendo que estoy distribuido binomialmente con media F * N. También sé que, dado I y N, F sigue una distribución beta. De hecho, he verificado por programa la relación entre esas dos distribuciones, que es
cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1
El problema es que no tengo una sensación intuitiva de la relación. No puedo "imaginar" por qué funciona.
EDITAR: Todas las respuestas fueron desafiantes, especialmente las de @ whuber, que todavía necesito asimilar, pero fue muy útil traer las estadísticas del pedido. Sin embargo, me di cuenta de que debería haber hecho una pregunta más básica: dados I y N, ¿cuál es la distribución para F? Todos han señalado que es Beta, lo que yo sabía. Finalmente descubrí de Wikipedia ( Conjugate anterior ) que parece ser Beta(I+1, N-I+1)
. Después de explorarlo con un programa, parece ser la respuesta correcta. Entonces, me gustaría saber si estoy equivocado. Y, todavía estoy confundido acerca de la relación entre los dos cdf mostrados anteriormente, por qué suman 1 y si incluso tienen algo que ver con lo que realmente quería saber.
fuente
Respuestas:
Considere las estadísticas de orden de n + 1 sorteos independientes de una distribución uniforme. Debido a que las estadísticas de pedido tienen distribuciones Beta , la integral Beta da la posibilidad de que x [ k ] no exceda px[0]≤x[1]≤⋯≤x[n] n+1 x[k] p
(¿Por qué es esto? Aquí hay una demostración no rigurosa pero memorable. La posibilidad de que encuentre entre p y p + d p es la posibilidad de que de n + 1 valores uniformes, k se encuentren entre 0 y p , al menos uno de ellos se encuentra entre p y p + d p , y el resto se encuentra entre p + d p y 1. En primer orden en el infinitesimal d px[k] p p+dp n+1 k 0 p p p+dp p+dp 1 dp solo necesitamos considerar el caso en el que exactamente un valor (es decir, ) se encuentra entre p y p + d p y, por lo tanto , los valores de n - k exceden p + d p . Como todos los valores son independientes y uniformes, esta probabilidad es proporcional a p k ( d p ) ( 1 - p - d p ) n - k . Para primer orden en d p esto es igual a px[k] p p+dp n−k p+dp pk(dp)(1−p−dp)n−k dp , precisamente el integrando de la distribución Beta. El término 1pk(1−p)n−kdp se puede calcular directamente a partir de este argumento como el coeficiente multinomial ( n + 11B(k+1,n−k+1) o derivado indirectamente como la constante de normalización de la integral.)(n+1k,1,n−k)
Por definición, el evento es que el valor de k + 1 st no excede p . De manera equivalente, al menos k + 1 de los valores no exceden p : esta simple (y espero obvia) afirmación proporciona la intuición que busca. La probabilidad del enunciado equivalente viene dada por la distribución binomial,x[k]≤p k+1st p k+1 p
En resumen , la integral Beta divide el cálculo de un evento en una serie de cálculos: encontrar al menos los valores de en el rango [ 0 , p ] , cuya probabilidad normalmente calcularíamos con un cdf Binomial, se divide en casos exclusivos donde exactamente k valores están en el rango [ 0 , x ] y 1 valor está en el rango [ x , x + d x ] para todos los posibles x , 0 ≤ x < pk+1 [0,p] k [0,x] [x,x+dx] x 0≤x<p , y es una longitud infinitesimal. La suma de todas esas "ventanas" [ x , x + d x ] , es decir, la integración, debe dar la misma probabilidad que el CDM binomial.dx [x,x+dx]
fuente
Mire el pdf de Binomial en función de : f ( x ) = ( nx y el pdf de Beta en función dep:g(p)=Γ(a+b)
fuente
Como se anotó, la distribución Beta describe la distribución de la probabilidad de prueba de parámetros , mientras que la distribución binomial describe la distribución de los resultados del parámetro I . Reescribiendo su pregunta, lo que preguntó fue por qué P ( F ≤ i + 1F I P(Fn≤i+1)+P(I+1≤fn)=1P(Fn≤i+1)=P(fn<I+1)
Admito que esto puede no ayudar a intuir la formulación original del problema, pero tal vez ayude al menos ver cómo las dos distribuciones usan el mismo modelo subyacente de ensayos repetidos de Bernoulli para describir el comportamiento de diferentes parámetros.
fuente
In Bayesian land, the Beta distribution is the conjugate prior for the p parameter of the Binomial distribution.
fuente
Can't comment on other answers, so i have to create my own answer.
Posterior = C * Likelihood * Prior (C is a constant that makes Posterior integrated to 1)
Dado un modelo que utiliza la distribución Binomial para la probabilidad, y la distribución Beta para Prior. El producto de los dos que genera el Posterior también es una distribución Beta. Dado que el Prior y el Posterior son ambos Beta, y por lo tanto son distribuciones conjugadas . el Prior (un Beta) se llama conjugado previo para la probabilidad (un Binomial). Por ejemplo, si multiplica una Beta con una Normal, la Posterior ya no es una Beta. En resumen, Beta y Binomial son dos distribuciones que se usan con frecuencia en la inferencia bayesiana. Beta es Conjugate Prior de Binomial, pero las dos distribuciones no son un subconjunto o superconjunto del otro.
The key idea of Bayesian inference is we are treating the parameter p as a random variable that ranges from [0,1] which is contrary to frequentist inference approach where we are treating parameter p as fixed. If you look closely to the properties of Beta distribution, you will see its Mean and Mode are solely determined byα and β irrelevant to the parameter p . This, coupled with its flexibility, is why Beta is usually used as a Prior.
fuente
Summary: It is often said that Beta distribution is a distribution on distributions! But what is means?
It essentially means that you may fixn,k and think of P[Bin(n,p)⩾k] as a function of p . What the calculation below says is that the value of P[Bin(n,p)⩾k] increases from 0 to 1 when you tune p from 0 to 1 . The increasing rate at each p is exactly β(k,n−k+1) at that p .
LetBin(n,p) denote a Binomial random variable with n samples and the probability of success p . Using basic algebra we have
It has also some nice combinatorial proof, think of it as an exercise!
So, we have:
Remark To see an interactive version of the plot look at this. You may download the notebook or just use the Binder link.
fuente