¿Cuándo no puede interpretarse la distribución de muestreo frecuentista como posterior bayesiano en entornos de regresión?

Mis preguntas reales están en los últimos dos párrafos, pero para motivarlos:

Si intento estimar la media de una variable aleatoria que sigue una distribución Normal con una varianza conocida, he leído que poner un uniforme antes en la media da como resultado una distribución posterior que es proporcional a la función de probabilidad. En estas situaciones, el intervalo creíble bayesiano se superpone perfectamente con el intervalo de confianza frecuentista, y la estimación bayesiana máxima a posteriori es igual a la estimación de probabilidad máxima frecuentista.

En una configuración de regresión lineal simple,

$Y = \textbf{X}\beta+\epsilon, \hspace{1cm} \epsilon\sim N(0,\sigma^2)$

poner un previo uniforme sobre y una inversa-gamma antes en con pequeños valores de los parámetros da como resultado una posterior que será muy similar a la frequentist , y un intervalo creíble para la distribución posterior de que será muy similar al intervalo de confianza alrededor de la estimación de máxima verosimilitud. No serán exactamente iguales porque lo anterior en $\beta$ $\sigma^2$ $\hat\beta^{MAP}$ $\hat\beta^{MLE}$ $\beta|X$ $\sigma^2$ ejerce una pequeña cantidad de influencia, y si la estimación posterior se lleva a cabo a través de la simulación MCMC que introducirá otra fuente de discrepancia, pero el intervalo de credibilidad bayesiano alrededor de la e intervalo de confianza alrededor de frequentist será bastante cerca uno del otro, y, por supuesto, a medida que aumenta el tamaño de la muestra, deberían converger a medida que la influencia de la probabilidad crece para dominar la del anterior. $\hat\beta^{MAP}$ $\hat\beta^{MLE}$

Pero he leído que también hay situaciones de regresión donde estas casi equivalencias no se mantienen. Por ejemplo, regresiones jerárquicas con efectos aleatorios, o regresión logística: estas son situaciones en las que, según tengo entendido, no hay objetivos "buenos" o referencias previas.

$P(\beta|X)$ y que no tengo información previa que quiera incorporar, ¿por qué no puedo proceder con la estimación frecuente de máxima verosimilitud en estas situaciones e interpretar las estimaciones de coeficientes resultantes y los errores estándar como estimaciones MAPes bayesianas y desviaciones estándar, y tratarlas implícitamente? ¿Estimaciones "posteriores" como resultado de un previo que debe haber sido "poco informativo" sin intentar encontrar la formulación explícita del anterior que conduciría a tal posterior? En general, dentro del ámbito del análisis de regresión, ¿cuándo está bien proceder a lo largo de estas líneas (de tratar la probabilidad como un posterior) y cuándo no está bien? ¿Qué pasa con los métodos frecuentas que no se basan en la probabilidad, como los métodos de cuasi-probabilidad,

¿Las respuestas dependen de si mi objetivo de inferencia son estimaciones puntuales de coeficientes, o la probabilidad de que un coeficiente esté dentro de un rango particular, o cantidades de la distribución predictiva?

bayesian maximum-likelihood posterior frequentist Yakkanomica
fuente

Respuestas:

$p$

$H_0$ $p$ $H_0$

$p$ $P(D|H_0)$ $P(H_0|D)$

$p$ $\theta$

L (θ | D) = P (D | θ)

$L(\theta | D) = P(D|\theta)$

$P(\theta|D)$ $\theta$

\underset{posterior}{\underset{⏟}{P (θ | D)}} \propto \underset{likelihood}{\underset{⏟}{P (D | θ)}} \times \underset{prior}{\underset{⏟}{P (θ)}}

$\underbrace{P(\theta|D)}_\text{posterior} \propto \underbrace{P(D|\theta)}_\text{likelihood} \times \underbrace{P(\theta)}_\text{prior}$

$p$

Por lo tanto, si bien las estimaciones de máxima verosimilitud deben ser las mismas que las estimaciones de Bayesian de MAP en anteriores uniformes, debe recordar que responden una pregunta diferente.

Cohen, J. (1994). La tierra es redonda (p <.05). Psicólogo estadounidense, 49, 997-1003.

Tim
fuente

Gracias por tu respuesta @Tim. Debería haber sido más claro: entiendo que P (D | H) y P (H | D) en general no son lo mismo, y que los frecuentistas y los bayesianos difieren en la opinión sobre si es apropiado asignar distribuciones de probabilidad a los parámetros ( o hipótesis más generalmente). Lo que estoy preguntando es sobre situaciones en las que la distribución de muestreo (frecuente) de un estimador será numéricamente equivalente a la distribución posterior (bayesiana) del valor del parámetro verdadero.

Yakkanomica

Continuación de mi comentario anterior: Usted escribió: "Entonces, si bien las estimaciones de máxima verosimilitud deben ser las mismas que las estimaciones de Bayesian de MAP en anteriores uniformes", pregunto si hay situaciones en las que esta relación se rompe, tanto en términos de las estimaciones puntuales y las distribuciones a su alrededor.

Yakkanomica

Un apéndice final: algunas personas dirían que la principal virtud del enfoque bayesiano es su capacidad para incorporar de manera flexible el conocimiento previo. Para mí, el atractivo del enfoque bayesiano está en la interpretación: la capacidad de asignar una distribución de probabilidad a un parámetro. La necesidad de especificar los antecedentes es una molestia. Quiero saber en qué situaciones puedo usar métodos frecuentistas, pero asignar una interpretación bayesiana a los resultados argumentando que los resultados frecuentistas y bayesianos coinciden numéricamente con antecedentes plausiblemente no informativos.

Yakkanomica

@Yakkanomica Lo entiendo, es una pregunta interesante, pero la respuesta simple (como se indicó anteriormente) es que no debe hacer tales interpretaciones porque los métodos más frecuentes responden a la pregunta diferente de Bayesian. Las estimaciones puntuales de ML y MAP deben estar de acuerdo, pero los intervalos de confianza y el IDH pueden diferir y no deben interpretarse como intercambiables.

Tim

Pero @Tim, hay situaciones en las que los intervalos de confianza y el IDH se superponen. Por ejemplo, compare las estimaciones de ML en p.1906 con las estimaciones posteriores bayesianas (basadas en anteriores uniformes en los coeficientes e IG anteriores en la escala) en p.1908: ejemplo PROC GENMOD . La estimación puntual de ML y los límites de confianza del 95% son muy similares a la estimación media posterior bayesiana y al intervalo de HPD del 95%.

Yakkanomica