Si un intervalo creíble tiene un previo plano, ¿es un intervalo de confianza del 95% igual a un intervalo creíble del 95%?

31

Soy muy nuevo en las estadísticas bayesianas, y esta puede ser una pregunta tonta. Sin embargo:

Considere un intervalo creíble con un previo que especifique una distribución uniforme. Por ejemplo, de 0 a 1, donde 0 a 1 representa el rango completo de valores posibles de un efecto. En este caso, ¿un intervalo creíble del 95% sería igual a un intervalo de confianza del 95%?

pomodoro
fuente

Respuestas:

23

Muchos intervalos de confianza frecuentas (IC) se basan en la función de probabilidad. Si la distribución previa no es realmente informativa, entonces la posterior bayesiana tiene esencialmente la misma información que la función de probabilidad. En consecuencia, en la práctica, un intervalo de probabilidad bayesiano (o intervalo creíble) puede ser numéricamente muy similar a un intervalo de confianza frecuentista. [Por supuesto, incluso si son numéricamente similares, existen diferencias filosóficas en la interpretación entre las estimaciones de intervalos bayesianas y frecuentistas.]

Aquí hay un ejemplo simple, estimando la probabilidad de éxito binomial Supongamos que tenemos observaciones (ensayos) con éxitos.θ.n=100X=73

Frecuentista: el intervalo tradicional de Wald usa la estimación puntual Y el IC del 95% tiene la forma que calcula aTheta ±1,96θ^=X/n=73/100=0.73.

θ^±1.96θ^(1θ^)n,
(0.643,0.817).
n = 100;  x = 73;  th.w = x/n;  pm = c(-1,1)
ci.w = th.w + pm*1.96*sqrt(th.w*(1-th.w)/n);  ci.w
[1] 0.6429839 0.8170161

Esta forma de IC asume que las distribuciones binomiales relevantes pueden ser aproximadas por las normales y que el margen de error está bien aproximado por Particularmente para pequeña estos supuestos no necesitan ser ciertos. [Los casos donde o son especialmente problemáticos.]θ(1θ)/nn,X=0X=nθ^(1θ^)/n.n,X=0X=n

Se ha demostrado que el CI Agresti-Coull tiene una probabilidad de cobertura más precisa. Este intervalo 'agrega dos éxitos y dos fallas' como un truco para obtener una probabilidad de cobertura más cercana al 95%. Comienza con la estimación puntual donde Luego, un IC del 95% tiene la forma que se calcula enPara y la diferencia entre estos dos estilos de intervalos de confianza es casi insignificante. ˜ n +4. ˜ θ ±1.96θ~=(X+2)/n~,n~+4.(0,612,0,792). n>1000.3<˜θ<0.7,

θ~±1.96θ~(1θ~)n~,
(0.612,0.792).n>1000.3<θ~<0.7,
ci.a = th.a + pm*1.96*sqrt(th.a*(1-th.a)/n);  ci.a
[1] 0.6122700 0.7915761

Bayesiano: Un previo no informativo popular en esta situación esLa función de probabilidad es proporcional a Multiplicando los núcleos de lo anterior y la probabilidad tenemos el núcleo de la distribución posterior θ x ( 1 - θ ) n - x . B e t a ( x + 1 ,Beta(1,1)Unif(0,1).θx(1θ)nx.Beta(x+1,nx+1).

Luego, una estimación del intervalo bayesiano del 95% utiliza los cuantiles 0.025 y 0.975 de la distribución posterior para obtener Cuando la distribución previa es 'plana' o 'no informativa', la diferencia numérica entre el intervalo de probabilidad bayesiano y el intervalo de confianza de Agresti-Coull es leve.(0.635,0.807).

qbeta(c(.025, .975), 74, 28)
[1] 0.6353758 0.8072313

Notas: (a) En esta situación, algunos bayesianos prefieren el previo no informativo(b) Para niveles de confianza distintos al 95%, el IC Agresti-Coull utiliza una estimación puntual ligeramente diferente. (c) Para los datos que no sean binomiales, puede que no haya un previo 'plano' disponible, pero se puede elegir un previo con una gran variación (precisión pequeña) que lleva muy poca información. (d) Para obtener más información sobre los IC de Agresti-Coull, gráficos de probabilidades de cobertura y algunas referencias, quizás también vea estas preguntas y respuestas .Beta(.5,.5).

BruceET
fuente
10

La respuesta de BruceET es excelente pero bastante larga, así que aquí hay un resumen práctico rápido:

  • si el anterior es plano, la probabilidad y el posterior tienen la misma forma
  • los intervalos, sin embargo, no son necesariamente los mismos, porque se construyen de diferentes maneras. Un IC bayesiano estándar del 90% cubre el 90% central de la parte posterior. Un IC frecuentista generalmente se define mediante una comparación puntual (ver la respuesta de BruceET). Para un parámetro de ubicación sin límites (por ejemplo, estimar la media de una distribución normal), la diferencia suele ser pequeña, pero si estima un parámetro limitado (por ejemplo, la media binomial) cerca de los límites (0/1), las diferencias pueden ser sustanciales.
  • por supuesto, la interpretación también es diferente, pero interpreto la pregunta principalmente como "¿cuándo serán los valores iguales?"
Florian Hartig
fuente
9

Si bien se puede resolver un previo que produce un intervalo creíble que equivale al intervalo de confianza frecuentista, es importante darse cuenta de cuán limitado es el alcance de la aplicación. Toda la discusión supone que el tamaño de la muestra fue fijo y no es una variable aleatoria. Se supone que solo se observaron los datos y que no se realizó una inferencia secuencial. Se supone que solo había una variable dependiente y ningún otro parámetro era de interés. Donde hay multiplicidades, los intervalos bayesiano y frecuentista divergen (las probabilidades bayesianas posteriores están en modo predictivo de tiempo de avance y no necesitan considerar "cómo llegamos aquí", por lo tanto, no tienen forma o necesidad de ajustar para múltiples miradas). Adicionalmente,

Frank Harrell
fuente
¿Qué significa estar en "modo predictivo de tiempo de avance" y por qué no necesitamos considerar la selección o los efectos de multiplicidad?
badmax
1
Mira esto . Piense en pronosticar el ganador de un partido de fútbol a medida que avanza el juego. Tu probabilidad actual de que el equipo x gane el juego puede ignorar por completo los pronósticos anteriores que hiciste. Pero si opera en un modo frecuentado, tendría que imaginar todas las veces que su equipo perdió el juego y considerar los extremos de los puntajes en todos los puntos durante el juego que tiende a hacer pronósticos. Las multiplicidades provienen de las posibilidades de que los datos sean extremos, y esto solo tiene en cuenta los cálculos frecuentistas.
Frank Harrell
6

Probabilidad Bayesiano con plano anterior

La función de verosimilitud y el intervalo de confianza asociado no son los mismos (concepto) que una probabilidad bayesiana posterior construida con un previo que especifica una distribución uniforme.

En las partes 1 y 2 de esta respuesta se argumenta por qué la probabilidad no debe verse como una probabilidad bayesiana posterior basada en un plano anterior.

En la parte 3 se da un ejemplo donde el intervalo de confianza y el intervalo creíble varían ampliamente. También se señala cómo surge esta discrepancia.

1 Comportamiento diferente cuando la variable se transforma

Las probabilidades se transforman de una manera particular . Si conocemos la distribución de distribución de probabilidad entonces también conocemos la distribución de para la variable definida por cualquier función , de acuerdo con la regla de transformación:fx(x)fξ(ξ)ξx=χ(ξ)

fξ(ξ)=fx(χ(ξ))dχdξdξ

Si transforma una variable, entonces la media y el modo pueden variar debido a este cambio de la función de distribución. Eso significa y .x¯χ(ξ¯)xmaxf(x)χ(ξmaxf(ξ))

La función de probabilidad no se transforma de esta manera . Este es el contraste entre la función de probabilidad y la probabilidad posterior. La función de probabilidad (máximo de) permanece igual cuando transforma la variable.

Lξ(ξ)=Lx(χ(ξ))

Relacionado:

  • El piso anterior es ambiguo . Depende de la forma de la estadística particular.

    Por ejemplo, si tiene una distribución uniforme (por ejemplo, , entonces no es una variable distribuida uniforme.XU(0,1))X2

    No hay un único plano previo con el que pueda relacionar la función de probabilidad. Es diferente cuando define el plano anterior para o alguna variable transformada como . Por lo probable, esta dependencia no existe.XX2

  • Los límites de las probabilidades (intervalos de credibilidad) serán diferentes cuando transforma la variable (para las funciones de probabilidad, este no es el caso) . Por ejemplo, para algún parámetro y una transformación monotónica (por ejemplo logaritmo) a obtener los equivalentes intervalos de probabilidad af(a)

    amin<a<amaxf(amin)<f(a)<f(amax)

2 Concepto diferente: los intervalos de confianza son independientes de los anteriores

Suponga que muestrea una variable de una población con parámetro (desconocido) que se muestrea a sí misma (la población con parámetro ) de una superpoblación (con valores posiblemente variables para ).Xθθθ

Uno puede hacer una declaración inversa tratando de inferir lo que el original puede haberse basado en la observación de algunos valores para la variable .θxiX

  • Los métodos bayesianos hacen esto suponiendo una distribución previa para la distribución de posiblesθ
  • Esto contrasta con la función de probabilidad y el intervalo de confianza, que son independientes de la distribución anterior.

El intervalo de confianza no usa información de un previo como lo hace el intervalo creíble (la confianza no es una probabilidad).

Independientemente de la distribución previa (uniforme o no), el intervalo de x% de confianza contendrá el parámetro verdadero en de los casosx (los intervalos de confianza se refieren a la tasa de éxito, error tipo I, del método, no de un caso en particular) .

En el caso del intervalo creíble, este concepto ( de tiempo que el intervalo contiene el parámetro verdadero) ni siquiera es aplicable, pero podemos interpretarlo en un sentido frecuente y luego observamos que el intervalo creíble contendrá el parámetro verdadero solo del tiempo cuando el previo (uniforme) describe correctamente la superpoblación de parámetros que podemos encontrar. El intervalo puede estar funcionando efectivamente más alto o más bajo que el x% (no es que esto importe ya que el enfoque bayesiano responde a diferentes preguntas, pero es solo para notar la diferencia).x

3 Diferencia entre confianza e intervalos creíbles

En el siguiente ejemplo, examinamos la función de probabilidad de la distribución exponencial como función del parámetro de tasa , la media muestral y el tamaño muestral :λx¯n

L(λ,x¯,n)=nn(n1)!xn1λneλnx¯

Esta función expresa la probabilidad de observar (para una y dada ) una media muestral entre y .nλx¯x¯+dx

nota: el parámetro de velocidad va de a (a diferencia de la 'solicitud' de OP de a ). El prior en este caso será un prior inapropiado . Sin embargo, los principios no cambian. Estoy usando esta perspectiva para una ilustración más fácil. Las distribuciones con parámetros entre y menudo son distribuciones discretas (difíciles de trazar líneas continuas) o una distribución beta (difícil de calcular)λ00101

La imagen a continuación ilustra esta función de probabilidad (el mapa de color azul), para el tamaño de muestra , y también dibuja los límites para los intervalos del 95% (confianza y credibilidad).n=4

diferencia entre intervalos creíbles y de confianza

Los límites se crean obteniendo la función de distribución acumulativa (unidimensional). Pero, esta integración / acumulación se puede hacer en dos direcciones .

La diferencia entre los intervalos se produce porque el área del 5% se realiza de diferentes maneras.

  • El intervalo de confianza del 95% contiene valores para los cuales el valor observado ocurriría al menos en el 95% de los casos. De este modo. cualquiera sea el valor , solo haríamos un juicio incorrecto en el 95% de los casos.λx¯λ

    Para cualquier tiene norte y sur de los límites (cambiando ) 2.5% del peso de la función de probabilidad.λx¯

  • El intervalo creíble del 95% contiene valores que tienen más probabilidades de causar el valor observado (dado un plano anterior).λx¯

    Incluso cuando el resultado observado es inferior al 5% de probabilidad para una dada , la particular puede estar dentro del intervalo creíble. En el ejemplo particular, los valores más altos de son 'preferidos' para el intervalo creíble.x¯λλλ

    Para cualquier tiene el oeste y el este de los límites (cambiando ) 2.5% del peso de la función de probabilidad.x¯λ

Un caso en el que coinciden el intervalo de confianza y el intervalo creíble (basado en un previo incorrecto) es para estimar la media de una variable distribuida gaussiana (la distribución se ilustra aquí: https://stats.stackexchange.com/a/351333/164061 ).

Aquí se ilustra un caso obvio donde el intervalo de confianza y el intervalo creíble no coinciden ( https://stats.stackexchange.com/a/369909/164061 ). El intervalo de confianza para este caso puede tener uno o incluso ambos límites (superior / inferior) en el infinito.

Sexto Empírico
fuente
2
No hable si el intervalo creíble contiene el parámetro verdadero. El intervalo creíble es hacer una declaración de probabilidad. Y el x% para el intervalo de confianza debe mencionar qué significa la replicación, es decir, qué son los "casos".
Frank Harrell
La primera viñeta es la razón por la que algunos bayesianos prefieren como se menciona en la Nota al final de mi problema. // Los intervalos de Wald no proporcionan el nivel de cobertura anunciado debido a las aproximaciones involucradas. (No se basa precisamente en la probabilidad.)Beta(.5,.5)
BruceET
No creo haber dicho que con un plano anterior la probabilidad es posterior, aunque ese puede ser el caso. Consistente con escribir una respuesta en lo que se suponía que era el nivel de experiencia de OP, traté de escribir el primer párrafo de mi Respuesta con cuidado. ¿Crees que lo que dije está realmente mal, o estás diciendo que podría malinterpretarse?
BruceET
1

Esto no es generalmente cierto, pero puede parecerlo debido a los casos especiales considerados con mayor frecuencia.

ConsidereEl intervalo es un intervalo de confianza del para aunque no sea el que usaría cualquier persona con sentido común. No coincide con un intervalo creíble de desde la parte posterior de un plano anterior.( min { X , Y } , max { X , Y } ) 50 % θ , 50 %X,Yi.i.dUniform[θ1/2,θ+1/2].(min{X,Y},max{X,Y})50%θ,50%

La técnica de condicionamiento de Fisher en una estadística auxiliar en este caso produce un intervalo de confianza que coincide con ese intervalo creíble.

Michael Hardy
fuente
0

A partir de mi lectura, pensé que esta afirmación es verdadera asintóticamente, es decir, para muestras de gran tamaño, y si se utiliza un previo no informativo.

Un simple ejemplo numérico parece confirmar esto: los intervalos de probabilidad máxima del perfil del 90% y los intervalos creíbles del 90% de un GLM binomial ML y un GLM binomial bayesiano son de hecho prácticamente idénticos n=1000, aunque la discrepancia sería mayor para los pequeños n:

# simulate some data
set.seed(123)
n = 1000                     # sample size
x1 = rnorm(n)                # two continuous covariates 
x2 = rnorm(n)
z = 0.1 + 2*x1 + 3*x2        # predicted values on logit scale
y = rbinom(n,1,plogis(z))    # bernoulli response variable
d = data.frame(y=y, x1=x1, x2=x2)

# fit a regular GLM and calculate 90% confidence intervals
glmfit = glm(y ~ x1 + x2, family = "binomial", data = d)
library(MASS)
# coefficients and 90% profile confidence intervals :
round(cbind(coef(glmfit), confint(glmfit, level=0.9)), 2) 
#                      5 % 95 %
#   (Intercept) 0.00 -0.18 0.17
# x1            2.04  1.77 2.34
# x2            3.42  3.05 3.81

# fit a Bayesian GLM using rstanarm
library(rstanarm)
t_prior = student_t(df = 3, location = 0, scale = 100) # we set scale to large value to specify an uninformative prior
bfit1 = stan_glm(y ~ x1 + x2, data = d, 
                 family = binomial(link = "logit"), 
                 prior = t_prior, prior_intercept = t_prior,  
                 chains = 1, cores = 4, seed = 123, iter = 10000)
# coefficients and 90% credible intervals :
round(cbind(coef(bfit1), posterior_interval(bfit1, prob = 0.9)), 2) 
#                        5%  95%
#   (Intercept) -0.01 -0.18 0.17
# x1             2.06  1.79 2.37
# x2             3.45  3.07 3.85


# fit a Bayesian GLM using brms
library(brms)
priors = c(
  prior(student_t(3, 0, 100), class = "Intercept"),
  prior(student_t(3, 0, 100), class = "b")
)
bfit2 = brm(
  y ~ x1 + x2,
  data = d,
  prior = priors,
  family = "bernoulli",
  seed = 123 
) 
# coefficients and 90% credible intervals :
summary(bfit2, prob=0.9)
# Population-Level Effects: 
#           Estimate Est.Error l-90% CI u-90% CI Eff.Sample Rhat
# Intercept    -0.01      0.11    -0.18     0.18       2595 1.00
# x1            2.06      0.17     1.79     2.35       2492 1.00
# x2            3.45      0.23     3.07     3.83       2594 1.00


# fit a Bayesian GLM using arm
library(arm)
# we set prior.scale to Inf to specify an uninformative prior
bfit3 = bayesglm(y ~ x1 + x2, family = "binomial", data = d, prior.scale = Inf) 
sims = coef(sim(bfit3, n.sims=1000000))
# coefficients and 90% credible intervals :
round(cbind(coef(bfit3), t(apply(sims, 2, function (col) quantile(col,c(.05, .95))))),2)
#                       5%  95%
#   (Intercept) 0.00 -0.18 0.17
# x1            2.04  1.76 2.33
# x2            3.42  3.03 3.80

Como puede ver, en el ejemplo anterior, para n=1000, los intervalos de confianza del perfil del 90% de un GLM binomial son prácticamente idénticos a los intervalos creíbles del 90% de un GLM binomial bayesiano (la diferencia también está dentro de los límites de usar diferentes semillas y diferentes nrs de iteraciones en los ajustes bayesianos, y tampoco se puede obtener una equivalencia exacta ya que no es posible especificar un previo 100% no informativo con rstanarmo brms).

Tom Wenseleers
fuente