¿Por qué alguien usaría un enfoque bayesiano con un previo impropio 'no informativo' en lugar del enfoque clásico?

44

Si el interés es simplemente estimar los parámetros de un modelo (estimación puntual y / o intervalo) y la información previa no es confiable, débil (sé que esto es un poco vago, pero estoy tratando de establecer un escenario donde la elección de un prior es difícil) ... ¿Por qué alguien elegiría usar el enfoque bayesiano con antecedentes impropios 'no informativos' en lugar del enfoque clásico?


fuente
1
Gracias a todos por pensamientos tan interesantes sobre esta parte controvertida de las estadísticas bayesianas. He estado leyendo y comparando tus puntos. Existen argumentos interesantes que validan su uso en términos de reglas formales, practicidad e interpretación. Seleccionaré una respuesta en algún momento, pero tengo miedo de que sea una tarea muy difícil.

Respuestas:

24

Hay dos razones por las que uno puede optar por un enfoque bayesiano, incluso si está utilizando antecedentes altamente no informativos:

  • Problemas de convergencia. Hay algunas distribuciones (binomial, binomial negativa y gamma generalizada con las que estoy más familiarizado) que tienen problemas de convergencia en una cantidad de tiempo no trivial. Puede usar un marco "bayesiano", y métodos de Monte Carlo de cadena de Markov (MCMC) particulares, para resolver estos problemas de convergencia con potencia computacional y obtener estimaciones decentes de ellos.
  • Interpretación. Una estimación bayesiana + intervalo creíble de 95% tiene una interpretación más intuitiva que una estimación frecuentista + intervalo de confianza de 95%, por lo que algunos prefieren simplemente informarlos.
Fomite
fuente
3
MCMC no es realmente el método bayesiano. Simplemente podría dibujar estimaciones de su probabilidad objetivo (no posterior) si el problema es la convergencia.
scottyaz
16

Aunque los resultados serán muy similares, sus interpretaciones difieren.

Los intervalos de confianza implican la noción de repetir un experimento muchas veces y poder capturar el parámetro verdadero el 95% de las veces. Pero no puede decir que tiene un 95% de posibilidades de capturarlo.

Los intervalos creíbles (bayesianos), por otro lado, le permiten decir que hay una "probabilidad" del 95% de que el intervalo capture el valor verdadero. Actualización: una forma más bayesiana de decirlo sería que podría estar 95% seguro de sus resultados.

Esto es solo porque pasaste de a usando la Regla de Baye.P(Data|Hypothesis)P(Hypothesis|Data)

Dominic Comtois
fuente
1
Puedo estar confundido aquí, pero ¿cómo encaja "el verdadero valor" en un marco bayesiano? ¿Quizás te refieres al modo posterior (o media, o ... etc.)?
Macro
Me refiero a cualquier parámetro (valor de población) que esté estimando con su estadística de muestra, ya sea una media, una diferencia de medias, una pendiente de regresión ... En resumen, lo que busca.
Dominic Comtois
1
Sí, pero ¿el "valor verdadero" no indica que el parámetro es una constante (es decir, su distribución es una masa puntual)? Todo el concepto de mirar la distribución posterior parece estar en desacuerdo con pensar en los parámetros de esa manera.
Macro
9

Creo que una razón para hacerlo es que un análisis bayesiano le proporciona una distribución posterior completa. Esto puede dar como resultado intervalos más detallados que el típico frecuentista . Una cita aplicable, de Reis y Stedinger 2005, es:±2σ

Proporcionar una distribución posterior completa de los parámetros es una ventaja del enfoque bayesiano sobre los métodos clásicos, que generalmente solo proporcionan una estimación puntual de los parámetros representados por el modo de la función de verosimilitud, y hacen uso de supuestos de normalidad asintótica y una aproximación cuadrática de la función de log-verosimilitud para describir incertidumbres. Con el marco bayesiano, no es necesario utilizar ninguna aproximación para evaluar las incertidumbres porque la distribución posterior completa de los parámetros está disponible. Además, un análisis bayesiano puede proporcionar intervalos creíbles para parámetros o cualquier función de los parámetros que se interpreten más fácilmente que el concepto de intervalo de confianza en la estadística clásica (Congdon, 2001).

Entonces, por ejemplo, puede calcular intervalos creíbles para la diferencia entre dos parámetros.

Wayne
fuente
6

Sir Harold Jeffreys fue un firme defensor del enfoque bayesiano. Demostró que si usa antecedentes impropios difusos, la inferencia bayesiana resultante sería la misma que el enfoque inferencial frecuentista (es decir, las regiones creíbles bayesianas son lo mismo que los intervalos de confianza frecuentista). La mayoría de los bayesianos defienden los antecedentes informativos adecuados. Hay problemas con antecedentes inadecuados y algunos pueden argumentar que ningún previo es verdaderamente no informativo. Creo que los bayesianos que usan estos anteriores Jeffreys lo hacen como seguidores de Jeffreys. Dennis Lindley , uno de los defensores más firmes del enfoque bayesiano, tenía un gran respeto por Jeffreys, pero abogó por los antecedentes informativos.

Michael Chernick
fuente
1
+1 para las primeras líneas de tu respuesta. En mi opinión, la razón para elegir un prior de Jeffreys en lugar de un prior "no informativo" no es simplemente como seguidor de Jeffreys. Es porque realmente es como no hacer suposiciones, mientras que un supuesto previo no informativo es hacer una suposición sobre la parametrización.
Neil G
1
@NeilG También he encontrado que a algunas personas les gusta usarlos esencialmente para "Fail Frequentist" (en el mismo sentido que Fail Safe) cuando usan antecedentes no informativos para que puedan ser interpretados por un lector ingenuo.
Fomite
@EpiGrad: ¿Qué quieres decir? (Lo siento, mi comprensión de las estadísticas frecuentistas es muy pobre.)
Neil G
1
@NeilG Esencialmente explotar que un prior de Jeffrey le dará lo que alguien capacitado en campos frecuentistas espera ver. Es un término medio decente cuando trabajar en métodos bayesianos colocados no ha penetrado mucho.
Fomite
@NeilG También olvidé que, como en mi respuesta, si está utilizando MCMC para llevar a cabo un análisis frecuentista, eludiendo los problemas de convergencia, entonces el previo de Jeffrey también es útil.
Fomite
6

El enfoque bayesiano tiene ventajas prácticas. Ayuda con la estimación, a menudo es obligatorio. Y permite nuevas familias de modelos, y ayuda en la construcción de modelos más complicados (jerárquicos, multinivel).

Por ejemplo, con modelos mixtos (incluidos los efectos aleatorios con parámetros de varianza) se obtienen mejores estimaciones si los parámetros de varianza se estiman marginando los parámetros de nivel inferior (coeficientes del modelo; esto se llama REML ). El enfoque bayesiano hace esto naturalmente. Con estos modelos, incluso con REML, las estimaciones de probabilidad máxima (ML) de los parámetros de varianza son a menudo cero o sesgadas hacia abajo. Un previo adecuado para los parámetros de varianza ayuda.

Incluso si se usa la estimación puntual ( MAP , máximo a posteriori), los anteriores cambian la familia del modelo. La regresión lineal con un gran conjunto de variables algo colineales es inestable. La regularización L2 se usa como remedio, pero es interpretable como un modelo bayesiano con una estimación previa de Gauss (no informativa) y MAP. (La regularización de L1 es un previo diferente y da resultados diferentes. En realidad, el anterior puede ser algo informativo, pero se trata de las propiedades colectivas de los parámetros, no de un solo parámetro).

¡Así que hay algunos modelos comunes y relativamente simples en los que se necesita un enfoque bayesiano solo para lograrlo!

Las cosas están aún más a favor con modelos más complicados, como la asignación de Dirichlet latente (LDA) utilizada en el aprendizaje automático. Y algunos modelos son inherentemente bayesianos, por ejemplo, aquellos basados ​​en procesos de Dirichlet .

scellus
fuente
6

Podríamos discutir para siempre sobre los fundamentos de la inferencia para defender ambos enfoques, pero permítanme proponer algo diferente. Una para favorecer un análisis bayesiano sobre uno clásico se muestra claramente por cómo ambos enfoques abordan la predicción. Supongamos que tenemos el caso habitual condicionalmente iid. Clásicamente, una densidad predictiva se define conectando el valor de una estimación del parámetro en la densidad condicional . Esta densidad predictiva clásica no tiene en cuenta la incertidumbre de la estimaciónpracticalθ^=θ^(x1,,xn)ΘfXn+1Θ(xn+1θ)fXn+1Θ(xn+1θ^)θ^: dos estimaciones de puntos iguales con intervalos de confianza totalmente diferentes le dan la misma densidad predictiva. Por otro lado, la densidad predictiva bayesiana tiene en cuenta la incertidumbre sobre el parámetro, dada la información en una muestra de observaciones, automáticamente, ya que

fXn+1X1,,Xm(xn+1x1,,xn)=fXn+1Θ(xn+1θ)π(θx1,,xn)dθ.
zen
fuente
66
Vale la pena señalar que, en el contexto de la regresión lineal con errores normales, los intervalos de predicción frecuentista se basan en estadísticas fundamentales en lugar de estimadores enchufables y son idénticos a los intervalos bayesianos bajo los típicos antecedentes no informativos (conjuntamente planos en s y ). l o g ( σ 2 )βlog(σ2)
Cian
Relacionado con el comentario de @ Cyan.
4

Hay varias razones:

  1. En muchas situaciones, construir estadísticas de prueba o intervalos de confianza es bastante difícil, porque las aproximaciones normales, incluso después de usar una función de enlace apropiada, para trabajar con menudo no funcionan demasiado bien para situaciones de escasez de datos. Al usar la inferencia bayesiana con anteriores no informativos implementados a través de MCMC, se soluciona esto (para ver las advertencias, ver más abajo).±SE
  2. Las grandes propiedades de la muestra suelen ser completamente idénticas a algún enfoque frecuentista correspondiente.
  3. A menudo existe una renuencia considerable a ponerse de acuerdo sobre los antecedentes, sin importar cuánto sepamos realmente, debido al temor de ser acusados ​​de "no ser objetivos". Mediante el uso de antecedentes no informativos ("sin antecedentes") se puede pretender que no existe tal problema, lo que evitará las críticas de algunos revisores.

Ahora, en cuanto a las desventajas de solo usar antecedentes no informativos, comenzando con lo que creo que es lo más importante y luego dirigiéndome a algunos de los aspectos técnicos también bastante importantes:

  1. La interpretación de lo que obtienes es, honestamente, muy parecida a la de la inferencia frecuentista. No puede simplemente volver a etiquetar su inferencia frecuente de máxima probabilidad como inferencia bayesiana máxima a posteriori y afirmar que esto lo absuelve de cualquier preocupación sobre comparaciones múltiples, mira múltiples datos y le permite interpretar todas las declaraciones en términos de la probabilidad de que alguna hipótesis es verdad. Claro, los errores tipo I, etc., son conceptos frecuentas, pero como científicos deberíamos preocuparnos por hacer afirmaciones falsas y sabemos que hacer lo anterior causa problemas. Muchos de estos problemas desaparecen (o al menos son mucho menos problemáticos), si integra las cosas en un modelo jerárquico / hace algo empírico, Bayes, pero eso generalmente se reduce a generar previamente implícitamente a través del procedimiento de análisis al incluir la base de su previo en su modelo (y una alternativa a eso es formular explícitamente los anteriores). Estas consideraciones se ignoran con frecuencia, en mi opinión, principalmente para realizar hackeo bayesiano (es decir, introducir multiplicidad, pero ignorarlo) con la excusa de que esto no es un problema cuando se utilizan métodos bayesianos (omitiendo todas las condiciones que tiene que cumplirse).
  2. En el lado más "técnico", los antecedentes no informativos son problemáticos, porque no se garantiza un posterior adecuado. Muchas personas han ajustado los modelos bayesianos con antecedentes no informativos y no se han dado cuenta de que el posterior no es apropiado. Como resultado, se generaron muestras de MCMC que carecían esencialmente de sentido.

El último punto es un argumento para preferir anteriores bastante vagos (o un poco más poco informativos) que aseguren un posterior adecuado. Es cierto que a veces también puede ser difícil tomar muestras de estos, y puede ser difícil notar que no se ha explorado todo el posterior. Sin embargo, se ha demostrado que los métodos bayesianos con antecedentes vagos (pero adecuados) en muchos campos tienen propiedades de muestra pequeñas realmente buenas desde una perspectiva frecuentista y ciertamente podría verlo como un argumento para usarlos, mientras que con algo más de datos difícilmente habrá cualquier diferencia versus métodos con antecedentes no informativos.

Björn
fuente