Soy bastante evangelista con respecto al uso de razones de probabilidad para representar la evidencia objetiva a favor / en contra de un fenómeno dado. Sin embargo, hace poco aprendí que el factor Bayes cumple una función similar en el contexto de los métodos bayesianos (es decir, el anterior subjetivo se combina con el factor Bayes objetivo para producir un estado de creencia subjetiva objetivamente actualizado). Ahora estoy tratando de entender las diferencias computacionales y filosóficas entre una razón de probabilidad y un factor de Bayes.
A nivel computacional, entiendo que si bien la razón de probabilidad generalmente se calcula usando las probabilidades que representan la probabilidad máxima para la parametrización respectiva de cada modelo (ya sea estimada por validación cruzada o penalizada de acuerdo con la complejidad del modelo usando AIC), aparentemente el factor de Bayes de alguna manera usa probabilidades que representan la probabilidad de cada modelo integrado en todo su espacio de parámetros (es decir, no solo en el MLE). ¿Cómo se logra esta integración realmente normalmente? ¿Realmente se intenta calcular la probabilidad en cada uno de miles (millones?) De muestras aleatorias del espacio de parámetros, o existen métodos analíticos para integrar la probabilidad en el espacio de parámetros? Además, al calcular el factor Bayes,
Además, ¿cuáles son las diferencias filosóficas entre la razón de probabilidad y el factor de Bayes (nb no estoy preguntando acerca de las diferencias filosóficas entre la razón de probabilidad y los métodos bayesianos en general, sino el factor de Bayes como una representación de la evidencia objetiva específicamente). ¿Cómo se podría caracterizar el significado del factor Bayes en comparación con la razón de probabilidad?
fuente
Respuestas:
Es importante poner los factores de Bayes en su entorno correcto. Cuando tiene dos modelos, digamos, y convierte de probabilidades a probabilidades, entonces los factores de Bayes actúan como un operador en creencias anteriores:
La verdadera diferencia es que las razones de probabilidad son más baratas de calcular y generalmente conceptualmente más fáciles de especificar. La probabilidad en el MLE es solo una estimación puntual del numerador y denominador del factor Bayes, respectivamente. Como la mayoría de las construcciones frecuentistas, se puede ver como un caso especial de análisis bayesiano con un previo artificial que es difícil de entender. Pero principalmente surgió porque es analíticamente manejable y más fácil de calcular (en la era anterior a la aparición de los enfoques computacionales bayesianos aproximados).
Hasta el punto de la computación, sí: evaluará las diferentes integrales de probabilidad en el entorno bayesiano con un procedimiento de Monte Carlo a gran escala en casi cualquier caso de interés práctico. Hay algunos simuladores especializados, como GHK, que funcionan si asume ciertas distribuciones, y si hace estas suposiciones, a veces puede encontrar problemas analíticamente manejables para los que existen factores Bayes completamente analíticos.
Pero nadie usa estos; No hay razón para hacerlo. Con los muestreadores optimizados de Metropolis / Gibbs y otros métodos MCMC, es totalmente manejable abordar estos problemas de una manera totalmente basada en datos y calcular sus integrales numéricamente. De hecho, a menudo se hará esto jerárquicamente e integrará aún más los resultados sobre metadatos previos que se relacionan con mecanismos de recolección de datos, diseños experimentales no ignorables, etc.
Recomiendo el libro Bayesian Data Analysis para más información sobre esto. Aunque, el autor, Andrew Gelman, parece no preocuparse demasiado por los factores de Bayes . Como comentario, estoy de acuerdo con Gelman. Si vas a ir a Bayesian, explota la parte posterior completa. Hacer la selección del modelo con métodos bayesianos es como perjudicarlos, porque la selección del modelo es una forma de inferencia débil y en su mayoría inútil. Prefiero conocer las distribuciones sobre las opciones de modelo si puedo ... ¿a quién le importa cuantificarlo como "el modelo A es mejor que el modelo B" cuando no es necesario?
Estoy familiarizado con esta derivación y la discusión del libro Finite Mixture y Markov Switching Models de Sylvia Frühwirth-Schnatter, pero es probable que haya informes estadísticos más directos que se sumerjan más en la epistemología subyacente.
No conozco los detalles lo suficientemente bien como para darlos aquí, pero creo que hay algunas conexiones teóricas bastante profundas entre esto y la derivación de AIC. El libro de Teoría de la Información de Cover y Thomas insinuó esto al menos.
La sección del artículo de Wikipedia sobre "Interpretación" hace un buen trabajo al discutir esto (especialmente el gráfico que muestra la escala de fuerza de evidencia de Jeffreys).
Como de costumbre, no hay demasiadas cosas filosóficas más allá de las diferencias básicas entre los métodos bayesianos y los métodos frecuentistas (con los que parece que ya está familiarizado).
Lo principal es que la razón de probabilidad no es coherente en el sentido de un libro holandés. Puede inventar escenarios en los que la inferencia de selección del modelo a partir de las razones de probabilidad llevará a uno a aceptar apuestas perdedoras. El método bayesiano es coherente, pero opera sobre una base que podría ser extremadamente pobre y debe elegirse subjetivamente. Compensaciones ... compensaciones ...
FWIW, creo que este tipo de selección de modelo altamente parametrizado no es una muy buena inferencia. Prefiero los métodos bayesianos y prefiero organizarlos de manera más jerárquica, y quiero que la inferencia se centre en la distribución posterior completa si es factible hacerlo computacionalmente. Creo que los factores Bayes tienen algunas propiedades matemáticas claras, pero como Bayesiano, no estoy impresionado por ellos. Ocultan la parte realmente útil del análisis bayesiano, que es que te obliga a lidiar con tus antecedentes a la intemperie en lugar de barrerlos debajo de la alfombra, y te permite hacer inferencias en posteriores completos.
fuente
Al comprender la diferencia entre las razones de probabilidad y los factores de Bayes, es útil considerar una característica clave de los factores de Bayes con más detalle:
¿Cómo logran los factores de Bayes dar cuenta automáticamente de la complejidad de los modelos subyacentes?
Una perspectiva sobre esta cuestión es considerar métodos para la inferencia aproximada determinista. Bayes variacional es uno de esos métodos. Es posible que no solo reduzca drásticamente la complejidad computacional de las aproximaciones estocásticas (por ejemplo, muestreo de MCMC). Los Bayes Variacionales también proporcionan una comprensión intuitiva de lo que constituye un factor Bayes.
Recuerde primero que un factor Bayes se basa en las evidencias del modelo de dos modelos competidores,
donde las evidencias del modelo individual tendrían que ser calculadas por una integral complicada:
Ahora podemos volver a la pregunta original de cómo un factor Bayes equilibra automáticamente la bondad de ajuste y la complejidad de los modelos involucrados. Resulta que la energía libre negativa se puede reescribir de la siguiente manera:
El primer término es la probabilidad logarítmica de los datos esperados bajo el posterior aproximado; Representa la bondad de ajuste (o precisión ) del modelo. El segundo término es la divergencia KL entre el posterior aproximado y el anterior; representa la complejidad del modelo, en la opinión de que un modelo más simple es uno que es más consistente con nuestras creencias anteriores, o en la opinión de que un modelo más simple no tiene que estirarse tanto para acomodar los datos.
La aproximación de energía libre a la evidencia del modelo de registro muestra que la evidencia del modelo incorpora una compensación entre el modelado de los datos (es decir, la bondad de ajuste) y la coherencia con nuestros antecedentes (es decir, simplicidad o complejidad negativa).
Un factor de Bayes (en contraste con una razón de probabilidad) dice así cuál de los dos modelos competidores es mejor para proporcionar una explicación simple pero precisa de los datos.
fuente