Si el interés es simplemente estimar los parámetros de un modelo (estimación puntual y / o intervalo) y la información previa no es confiable, débil (sé que esto es un poco vago, pero estoy tratando de establecer un escenario donde la elección de un prior es difícil) ... ¿Por qué alguien elegiría usar el enfoque bayesiano con antecedentes impropios 'no informativos' en lugar del enfoque clásico?
44
Respuestas:
Hay dos razones por las que uno puede optar por un enfoque bayesiano, incluso si está utilizando antecedentes altamente no informativos:
fuente
Aunque los resultados serán muy similares, sus interpretaciones difieren.
Los intervalos de confianza implican la noción de repetir un experimento muchas veces y poder capturar el parámetro verdadero el 95% de las veces. Pero no puede decir que tiene un 95% de posibilidades de capturarlo.
Los intervalos creíbles (bayesianos), por otro lado, le permiten decir que hay una "probabilidad" del 95% de que el intervalo capture el valor verdadero. Actualización: una forma más bayesiana de decirlo sería que podría estar 95% seguro de sus resultados.
Esto es solo porque pasaste de a usando la Regla de Baye.PAGS( D a t a | Hyp o t h e s i s ) P(Hypothesis|Data)
fuente
Creo que una razón para hacerlo es que un análisis bayesiano le proporciona una distribución posterior completa. Esto puede dar como resultado intervalos más detallados que el típico frecuentista . Una cita aplicable, de Reis y Stedinger 2005, es:±2σ
Entonces, por ejemplo, puede calcular intervalos creíbles para la diferencia entre dos parámetros.
fuente
Sir Harold Jeffreys fue un firme defensor del enfoque bayesiano. Demostró que si usa antecedentes impropios difusos, la inferencia bayesiana resultante sería la misma que el enfoque inferencial frecuentista (es decir, las regiones creíbles bayesianas son lo mismo que los intervalos de confianza frecuentista). La mayoría de los bayesianos defienden los antecedentes informativos adecuados. Hay problemas con antecedentes inadecuados y algunos pueden argumentar que ningún previo es verdaderamente no informativo. Creo que los bayesianos que usan estos anteriores Jeffreys lo hacen como seguidores de Jeffreys. Dennis Lindley , uno de los defensores más firmes del enfoque bayesiano, tenía un gran respeto por Jeffreys, pero abogó por los antecedentes informativos.
fuente
El enfoque bayesiano tiene ventajas prácticas. Ayuda con la estimación, a menudo es obligatorio. Y permite nuevas familias de modelos, y ayuda en la construcción de modelos más complicados (jerárquicos, multinivel).
Por ejemplo, con modelos mixtos (incluidos los efectos aleatorios con parámetros de varianza) se obtienen mejores estimaciones si los parámetros de varianza se estiman marginando los parámetros de nivel inferior (coeficientes del modelo; esto se llama REML ). El enfoque bayesiano hace esto naturalmente. Con estos modelos, incluso con REML, las estimaciones de probabilidad máxima (ML) de los parámetros de varianza son a menudo cero o sesgadas hacia abajo. Un previo adecuado para los parámetros de varianza ayuda.
Incluso si se usa la estimación puntual ( MAP , máximo a posteriori), los anteriores cambian la familia del modelo. La regresión lineal con un gran conjunto de variables algo colineales es inestable. La regularización L2 se usa como remedio, pero es interpretable como un modelo bayesiano con una estimación previa de Gauss (no informativa) y MAP. (La regularización de L1 es un previo diferente y da resultados diferentes. En realidad, el anterior puede ser algo informativo, pero se trata de las propiedades colectivas de los parámetros, no de un solo parámetro).
¡Así que hay algunos modelos comunes y relativamente simples en los que se necesita un enfoque bayesiano solo para lograrlo!
Las cosas están aún más a favor con modelos más complicados, como la asignación de Dirichlet latente (LDA) utilizada en el aprendizaje automático. Y algunos modelos son inherentemente bayesianos, por ejemplo, aquellos basados en procesos de Dirichlet .
fuente
Podríamos discutir para siempre sobre los fundamentos de la inferencia para defender ambos enfoques, pero permítanme proponer algo diferente. Una para favorecer un análisis bayesiano sobre uno clásico se muestra claramente por cómo ambos enfoques abordan la predicción. Supongamos que tenemos el caso habitual condicionalmente iid. Clásicamente, una densidad predictiva se define conectando el valor de una estimación del parámetro en la densidad condicional . Esta densidad predictiva clásica no tiene en cuenta la incertidumbre de la estimaciónpractical θ^=θ^(x1,…,xn) Θ fXn+1∣Θ(xn+1∣θ) fXn+1∣Θ(xn+1∣θ^) θ^ : dos estimaciones de puntos iguales con intervalos de confianza totalmente diferentes le dan la misma densidad predictiva. Por otro lado, la densidad predictiva bayesiana tiene en cuenta la incertidumbre sobre el parámetro, dada la información en una muestra de observaciones, automáticamente, ya que
fuente
Hay varias razones:
Ahora, en cuanto a las desventajas de solo usar antecedentes no informativos, comenzando con lo que creo que es lo más importante y luego dirigiéndome a algunos de los aspectos técnicos también bastante importantes:
El último punto es un argumento para preferir anteriores bastante vagos (o un poco más poco informativos) que aseguren un posterior adecuado. Es cierto que a veces también puede ser difícil tomar muestras de estos, y puede ser difícil notar que no se ha explorado todo el posterior. Sin embargo, se ha demostrado que los métodos bayesianos con antecedentes vagos (pero adecuados) en muchos campos tienen propiedades de muestra pequeñas realmente buenas desde una perspectiva frecuentista y ciertamente podría verlo como un argumento para usarlos, mientras que con algo más de datos difícilmente habrá cualquier diferencia versus métodos con antecedentes no informativos.
fuente