¿Cuál es la fórmula (aproximada o exacta) para un intervalo de predicción para una variable aleatoria binomial?
Suponga que , y observamos (extraído de ). El es conocido.
Nuestro objetivo es obtener un intervalo de predicción de 95% para un nuevo sorteo de .
La estimación puntual es , donde . Un intervalo de confianza para p es sencillo, pero no puede encontrar una fórmula para un intervalo de predicción para Y . Si supiéramos p (en lugar de p ), entonces un intervalo de predicción del 95% simplemente consiste en encontrar los cuantiles de un binomio. ¿Hay algo obvio que estoy pasando por alto?
confidence-interval
binomial
prediction-interval
Statseeker
fuente
fuente
Respuestas:
Ok, intentemos esto. Daré dos respuestas: la bayesiana, que en mi opinión es simple y natural, y una de las posibles frecuentas.
Solución bayesiana
Suponemos una previa Beta en , i, e., P ~ B e t un ( α , β ) , porque el modelo Beta-Binomial es conjugado, lo que significa que la distribución posterior es también una distribución Beta con parámetros α = α + k , β = β + n - k , (estoy usando k para denotar el número de éxitos en n ensayos, en lugar de y ). Por lo tanto, la inferencia se simplifica enormemente. Ahora, si tiene algún conocimiento previo sobre los valores probables dep p∼Beta(α,β) α^=α+k,β^=β+n−k k n y , podría usarlo para establecer los valores de α y β , es decir, para definir su beta anterior, de lo contrario podría asumir un previo uniforme (no informativo), con α = β = 1 , u otros previos no informativos (ver por ejemploaquí) En cualquier caso, su posterior esp α β α=β=1
En la inferencia bayesiana, todo lo que importa es la probabilidad posterior, lo que significa que una vez que lo sepa, puede hacer inferencias para todas las demás cantidades en su modelo. Desea hacer inferencia en los observables : en particular, en un vector de nuevos resultados y = y 1 , ... , y m , donde m no es necesariamente igual a n . Específicamente, para cada j = 0 , ... , m , queremos calcular la probabilidad de tener exactamente j éxitos en las siguientes m pruebas, dado que obtuvimos ky y=y1,…,ym m n j=0,…,m j m k éxitos en las pruebas anteriores ; La función de masa predictiva posterior:n
Sin embargo, nuestro modelo binomial para significa que, condicionalmente si p tiene un cierto valor, la probabilidad de tener j éxitos en m ensayos no depende de resultados pasados: es simplementeY p j m
Así la expresión se convierte
El resultado de esta integral es una distribución bien conocida llamada distribución Beta-Binomial: omitiendo los pasajes, obtenemos la horrible expresión
Nuestra estimación puntual para , dada la pérdida cuadrática, es, por supuesto, la media de esta distribución, es decir,j
Ahora, busquemos un intervalo de predicción. Como esta es una distribución discreta, no tenemos una expresión de forma cerrada para , de modo que P r ( j 1 ≤ j ≤ j 2 ) = 0.95 . La razón es que, dependiendo de cómo defina un cuantil, para una distribución discreta, la función del cuantil no es una función o es una función discontinua. Pero este no es un gran problema: para m pequeño , simplemente puede escribir las probabilidades m P r ( j = 0[j1,j2] Pr(j1≤j≤j2)=0.95 m m y desde aquí encontrar j 1 , j 2 tal quePr(j=0|m,n,k),Pr(j≤1|m,n,k),…,Pr(j≤m−1|m,n,k) j1,j2
Por supuesto, encontraría más de una pareja, por lo que idealmente buscaría la más pequeña modo que se satisfaga lo anterior. Tenga en cuenta que[j1,j2]
son solo los valores de la CMF (función de masa acumulada) de la distribución beta-binomial, y como tal hay una expresión de forma cerrada , pero esto es en términos de la función hipergeométrica generalizada y, por lo tanto, es bastante complicado. Prefiero instalar el paquete Rp0,…,pm−1
extraDistr
y llamarpbbinom
para calcular el CMF de la distribución Beta-Binomial. Específicamente, si desea calcular todas las probabilidades de una vez, simplemente escriba:dondeα β p
alpha
ybeta
son los valores de los parámetros de su Beta anterior, es decir, y β (por lo tanto, 1 si está utilizando un previo uniforme sobre p ). Por supuesto, todo sería mucho más simple si R proporcionara una función cuantil para la distribución Beta-Binomial, pero desafortunadamente no lo hace.Ejemplo práctico con la solución bayesiana
Sea , k = 70 (por lo tanto, inicialmente observamos 70 éxitos en 100 ensayos). Queremos una estimación puntual y un intervalo de predicción del 95% para el número de éxitos j en los próximos m = 20 ensayos. Luegon=100 k=70 j m=20
donde asumí un uniforme previo en : dependiendo del conocimiento previo para su aplicación específica, este puede o no ser un buen previo. Asíp
Claramente, una estimación no entera para no tiene sentido, por lo que podríamos redondear al entero más cercano (14). Luego, para el intervalo de predicción:j
Las probabilidades son
Para un intervalo de probabilidades de igual cola, queremos el más pequeño tal que P r ( j ≤ j 2 | m , n , k ) ≥ 0.975 y el j 1 más grande tal que P r ( j < j 1 | m , n , k ) = P r ( j ≤ j 1 - 1 | m , n , kj2 Pr(j≤j2|m,n,k)≥0.975 j1 . De esta manera, tendremosPr(j<j1|m,n,k)=Pr(j≤j1−1|m,n,k)≤0.025
Por lo tanto, al observar las probabilidades anteriores, vemos que y j 1 = 9 . La probabilidad de este intervalo de predicción bayesiano es 0.9778494, que es mayor que 0.95. Podríamos encontrar intervalos más cortos de modo que P r ( j 1 ≤ j ≤ j 2 | m , n , k ) ≥ 0.95 , pero en ese caso al menos una de las dos desigualdades para las probabilidades de cola no se satisfaría.j2=18 j1=9 Pr(j1≤j≤j2|m,n,k)≥0.95
Solución frecuente
Seguiré el tratamiento de Krishnamoorthy y Peng, 2011 . Sea y X ∼ B i n o m ( n , p ) independientemente distribuidos binominalmente. Queremos un 1 - 2 α - intervalo de predicción para Y , en base a una observación de X . En otras palabras, buscamos I = [ L ( X ; nY∼Binom(m,p) X∼Binom(n,p) 1−2α− Y X tal que:I=[L(X;n,m,α),U(X;n,m,α)]
The "≥1−2α " is due to the fact that we are dealing with a discrete random variable, and thus we cannot expect to get exact coverage...but we can look for an interval which has always at least the nominal coverage, thus a conservative interval. Now, it can be proved that the conditional distribution of X given X+Y=k+j=s is hypergeometric with sample size s , number of successes in the population n and population size n+m . Thus the conditional pmf is
The conditional CDF ofX given X+Y=s is thus
The first great thing about this CDF is that it doesn't depend onp , which we don't know. The second great thing is that it allows to easily find our PI: as a matter of fact, if we observed a value k of X, then the 1−α lower prediction limit is the smallest integer L such that
correspondingly, the the1−α upper prediction limit is the largest integer such that
Thus,[L,U] is a prediction interval for Y of coverage at least 1−2α . Note that when p is close to 0 or 1, this interval is conservative even for large n , m , i.e., its coverage is quite larger than 1−2α .
Practical example with the Frequentist solution
Same setting as before, but we don't need to specifyα and β (there are no priors in the Frequentist framework):
The point estimate is now obtained using the MLE estimate for the probability of successes,p^=kn , which in turns leads to the following estimate for the number of successes in m trials:
For the prediction interval, the procedure is a bit different. We look for the largestU such that Pr(X≤k|k+U,n,n+m)=H(k;k+U,n,n+m)>α , thus let's compute the above expression for all U in [0,m] :
We can see that the largestU such that the probability is still larger than 0.025 is
Same as for the Bayesian approach. The lower prediction boundL is the smallest integer such that Pr(X≥k|k+L,n,n+m)=1−H(k−1;k+L,n,n+m)>α , thus
Thus our frequentist "exact" prediction interval is[L,U]=[8,18] .
fuente