Muchos intervalos de confianza frecuentas (IC) se basan en la función de probabilidad. Si la distribución previa no es realmente informativa, entonces la posterior bayesiana tiene esencialmente la misma información que la función de probabilidad. En consecuencia, en la práctica, un intervalo de probabilidad bayesiano (o intervalo creíble) puede ser numéricamente muy similar a un intervalo de confianza frecuentista. [Por supuesto, incluso si son numéricamente similares, existen diferencias filosóficas en la interpretación entre las estimaciones de intervalos bayesianas y frecuentistas.]
Aquí hay un ejemplo simple, estimando la probabilidad de éxito binomial
Supongamos que tenemos observaciones (ensayos) con éxitos.θ.n=100X=73
Frecuentista: el intervalo tradicional de Wald usa la estimación puntual
Y el IC del 95% tiene la forma
que calcula aTheta ±1,96√θ^=X/n=73/100=0.73.
θ^±1.96θ^(1−θ^)n−−−−−−−−√,
(0.643,0.817).
n = 100; x = 73; th.w = x/n; pm = c(-1,1)
ci.w = th.w + pm*1.96*sqrt(th.w*(1-th.w)/n); ci.w
[1] 0.6429839 0.8170161
Esta forma de IC asume que las distribuciones binomiales relevantes pueden ser aproximadas por las normales y que el margen de error está bien aproximado por
Particularmente para pequeña estos supuestos no necesitan ser ciertos. [Los casos donde o son especialmente problemáticos.] √θ(1−θ)/n−−−−−−−−−√n,X=0X=nθ^(1−θ^)/n−−−−−−−−−√.n,X=0X=n
Se ha demostrado que el CI Agresti-Coull tiene una probabilidad de cobertura más precisa. Este intervalo 'agrega dos éxitos y dos fallas' como un truco para obtener una probabilidad de cobertura más cercana al 95%. Comienza con la estimación puntual
donde Luego, un IC del 95% tiene la forma
que se calcula enPara y la diferencia entre estos dos estilos de intervalos de confianza es casi insignificante. ˜ n +4. ˜ θ ±1.96√θ~=(X+2)/n~,n~+4.(0,612,0,792). n>1000.3<˜θ<0.7,
θ~±1.96θ~(1−θ~)n~−−−−−−−−√,
(0.612,0.792).n>1000.3<θ~<0.7,
ci.a = th.a + pm*1.96*sqrt(th.a*(1-th.a)/n); ci.a
[1] 0.6122700 0.7915761
Bayesiano:
Un previo no informativo popular en esta situación esLa función de probabilidad es proporcional a
Multiplicando los núcleos de lo anterior y la probabilidad tenemos el núcleo de la distribución posterior
θ x ( 1 - θ ) n - x . B e t a ( x + 1 ,Beta(1,1)≡Unif(0,1).θx(1−θ)n−x.Beta(x+1,n−x+1).
Luego, una estimación del intervalo bayesiano del 95% utiliza los cuantiles 0.025 y 0.975 de la distribución posterior para obtener
Cuando la distribución previa es 'plana' o 'no informativa', la diferencia numérica entre el intervalo de probabilidad bayesiano y el intervalo de confianza de Agresti-Coull es leve.(0.635,0.807).
qbeta(c(.025, .975), 74, 28)
[1] 0.6353758 0.8072313
Notas: (a) En esta situación, algunos bayesianos prefieren el previo no informativo(b) Para niveles de confianza distintos al 95%, el IC Agresti-Coull utiliza una estimación puntual ligeramente diferente. (c) Para los datos que no sean binomiales, puede que no haya un previo 'plano' disponible, pero se puede elegir un previo con una gran variación (precisión pequeña) que lleva muy poca información. (d) Para obtener más información sobre los IC de Agresti-Coull, gráficos de probabilidades de cobertura y algunas referencias, quizás también vea estas preguntas y respuestas .Beta(.5,.5).
Probabilidad Bayesiano con plano anterior≠
La función de verosimilitud y el intervalo de confianza asociado no son los mismos (concepto) que una probabilidad bayesiana posterior construida con un previo que especifica una distribución uniforme.
En las partes 1 y 2 de esta respuesta se argumenta por qué la probabilidad no debe verse como una probabilidad bayesiana posterior basada en un plano anterior.
En la parte 3 se da un ejemplo donde el intervalo de confianza y el intervalo creíble varían ampliamente. También se señala cómo surge esta discrepancia.
1 Comportamiento diferente cuando la variable se transforma
Las probabilidades se transforman de una manera particular . Si conocemos la distribución de distribución de probabilidad entonces también conocemos la distribución de para la variable definida por cualquier función , de acuerdo con la regla de transformación:fx(x) fξ(ξ) ξ x=χ(ξ)
Si transforma una variable, entonces la media y el modo pueden variar debido a este cambio de la función de distribución. Eso significa y .x¯≠χ(ξ¯) xmaxf(x)≠χ(ξmaxf(ξ))
La función de probabilidad no se transforma de esta manera . Este es el contraste entre la función de probabilidad y la probabilidad posterior. La función de probabilidad (máximo de) permanece igual cuando transforma la variable.
Relacionado:
El piso anterior es ambiguo . Depende de la forma de la estadística particular.
Por ejemplo, si tiene una distribución uniforme (por ejemplo, , entonces no es una variable distribuida uniforme.X U(0,1)) X2
No hay un único plano previo con el que pueda relacionar la función de probabilidad. Es diferente cuando define el plano anterior para o alguna variable transformada como . Por lo probable, esta dependencia no existe.X X2
Los límites de las probabilidades (intervalos de credibilidad) serán diferentes cuando transforma la variable (para las funciones de probabilidad, este no es el caso) . Por ejemplo, para algún parámetro y una transformación monotónica (por ejemplo logaritmo) a obtener los equivalentes intervalos de probabilidada f(a) aminf(amin)<<af(a)<<amaxf(amax)
2 Concepto diferente: los intervalos de confianza son independientes de los anteriores
Suponga que muestrea una variable de una población con parámetro (desconocido) que se muestrea a sí misma (la población con parámetro ) de una superpoblación (con valores posiblemente variables para ).X θ θ θ
Uno puede hacer una declaración inversa tratando de inferir lo que el original puede haberse basado en la observación de algunos valores para la variable .θ xi X
El intervalo de confianza no usa información de un previo como lo hace el intervalo creíble (la confianza no es una probabilidad).
Independientemente de la distribución previa (uniforme o no), el intervalo de x% de confianza contendrá el parámetro verdadero en de los casosx (los intervalos de confianza se refieren a la tasa de éxito, error tipo I, del método, no de un caso en particular) .
En el caso del intervalo creíble, este concepto ( de tiempo que el intervalo contiene el parámetro verdadero) ni siquiera es aplicable, pero podemos interpretarlo en un sentido frecuente y luego observamos que el intervalo creíble contendrá el parámetro verdadero solo del tiempo cuando el previo (uniforme) describe correctamente la superpoblación de parámetros que podemos encontrar. El intervalo puede estar funcionando efectivamente más alto o más bajo que el x% (no es que esto importe ya que el enfoque bayesiano responde a diferentes preguntas, pero es solo para notar la diferencia).x
3 Diferencia entre confianza e intervalos creíbles
En el siguiente ejemplo, examinamos la función de probabilidad de la distribución exponencial como función del parámetro de tasa , la media muestral y el tamaño muestral :λ x¯ n
Esta función expresa la probabilidad de observar (para una y dada ) una media muestral entre y .n λ x¯ x¯+dx
nota: el parámetro de velocidad va de a (a diferencia de la 'solicitud' de OP de a ). El prior en este caso será un prior inapropiado . Sin embargo, los principios no cambian. Estoy usando esta perspectiva para una ilustración más fácil. Las distribuciones con parámetros entre y menudo son distribuciones discretas (difíciles de trazar líneas continuas) o una distribución beta (difícil de calcular)λ 0 ∞ 0 1 0 1
La imagen a continuación ilustra esta función de probabilidad (el mapa de color azul), para el tamaño de muestra , y también dibuja los límites para los intervalos del 95% (confianza y credibilidad).n=4
Los límites se crean obteniendo la función de distribución acumulativa (unidimensional). Pero, esta integración / acumulación se puede hacer en dos direcciones .
La diferencia entre los intervalos se produce porque el área del 5% se realiza de diferentes maneras.
El intervalo de confianza del 95% contiene valores para los cuales el valor observado ocurriría al menos en el 95% de los casos. De este modo. cualquiera sea el valor , solo haríamos un juicio incorrecto en el 95% de los casos.λ x¯ λ
Para cualquier tiene norte y sur de los límites (cambiando ) 2.5% del peso de la función de probabilidad.λ x¯
El intervalo creíble del 95% contiene valores que tienen más probabilidades de causar el valor observado (dado un plano anterior).λ x¯
Incluso cuando el resultado observado es inferior al 5% de probabilidad para una dada , la particular puede estar dentro del intervalo creíble. En el ejemplo particular, los valores más altos de son 'preferidos' para el intervalo creíble.x¯ λ λ λ
Para cualquier tiene el oeste y el este de los límites (cambiando ) 2.5% del peso de la función de probabilidad.x¯ λ
Un caso en el que coinciden el intervalo de confianza y el intervalo creíble (basado en un previo incorrecto) es para estimar la media de una variable distribuida gaussiana (la distribución se ilustra aquí: https://stats.stackexchange.com/a/351333/164061 ).
Aquí se ilustra un caso obvio donde el intervalo de confianza y el intervalo creíble no coinciden ( https://stats.stackexchange.com/a/369909/164061 ). El intervalo de confianza para este caso puede tener uno o incluso ambos límites (superior / inferior) en el infinito.
fuente
Esto no es generalmente cierto, pero puede parecerlo debido a los casos especiales considerados con mayor frecuencia.
ConsidereEl intervalo es un intervalo de confianza del para aunque no sea el que usaría cualquier persona con sentido común. No coincide con un intervalo creíble de desde la parte posterior de un plano anterior.( min { X , Y } , max { X , Y } ) 50 % θ , 50 %X,Y∼i.i.d∼Uniform[θ−1/2,θ+1/2]. (min{X,Y},max{X,Y}) 50% θ, 50%
La técnica de condicionamiento de Fisher en una estadística auxiliar en este caso produce un intervalo de confianza que coincide con ese intervalo creíble.
fuente
A partir de mi lectura, pensé que esta afirmación es verdadera asintóticamente, es decir, para muestras de gran tamaño, y si se utiliza un previo no informativo.
Un simple ejemplo numérico parece confirmar esto: los intervalos de probabilidad máxima del perfil del 90% y los intervalos creíbles del 90% de un GLM binomial ML y un GLM binomial bayesiano son de hecho prácticamente idénticos
n=1000
, aunque la discrepancia sería mayor para los pequeñosn
:Como puede ver, en el ejemplo anterior, para
n=1000
, los intervalos de confianza del perfil del 90% de un GLM binomial son prácticamente idénticos a los intervalos creíbles del 90% de un GLM binomial bayesiano (la diferencia también está dentro de los límites de usar diferentes semillas y diferentes nrs de iteraciones en los ajustes bayesianos, y tampoco se puede obtener una equivalencia exacta ya que no es posible especificar un previo 100% no informativo conrstanarm
obrms
).fuente