Actualmente estoy leyendo sobre los métodos bayesianos en la evolución molecular de la computación por Yang. En la sección 5.2 se habla de anteriores, y específicamente no informativo / plano / vago / difuso, conjugado e hiperprevio.
Esto podría estar pidiendo una simplificación excesiva, pero, ¿alguien podría explicar simplemente la diferencia entre este tipo de antecedentes y cómo eso afecta el resultado de un análisis / decisiones que tomaría durante el proceso de un análisis bayesiano?
(No soy estadístico y recién estoy comenzando el camino para aprender análisis bayesianos, así que cuanto más en términos simples, mejor)
Al más alto nivel, podemos pensar en todo tipo de antecedentes como la especificación de cierta cantidad de información que el investigador aporta al análisis fuera de los datos en sí: antes de mirar los datos, ¿qué valores de parámetros son más probables?
En las épocas oscuras del análisis bayesiano, cuando los bayesianos luchaban con los frecuentas, se creía que el investigador querría introducir la menor información posible en el análisis a través del análisis previo. Así que hubo mucha investigación y argumentos dedicados a comprender cómo, precisamente, un prior podría ser "no informativo" de esta manera. Hoy, Gelman argumenta en contra de la elección automática de antecedentes no informativos, diciendo en Bayesian Data Analysisque la descripción "no informativo" refleja su actitud hacia el prior, más que cualquier característica matemática "especial" del prior. (Además, hubo una pregunta en la literatura temprana sobre a qué escala un prior no es informativo. No creo que esto sea especialmente importante para su pregunta, pero para un buen ejemplo de este argumento desde una perspectiva frecuentista, vea el comienzo de Gary King, Metodología política unificadora. )
Un previo "plano" indica un previo uniforme donde todos los valores en el rango son igualmente probables. Una vez más, hay argumentos a tener en cuenta sobre si estos son realmente no informativos, ya que especificar que todos los valores son igualmente probables es, de alguna manera, información y puede ser sensible a cómo se parametriza el modelo. Los anteriores planos tienen una larga historia en el análisis bayesiano, que se remonta a Bayes y Laplace.
Un antecedente "vago" es altamente difuso, aunque no necesariamente plano, y expresa que un amplio rango de valores es plausible, en lugar de concentrar la masa de probabilidad en un rango específico. Esencialmente, es un previo con alta varianza (lo que sea que signifique la varianza "alta" en su contexto).
Los anteriores conjugados tienen la característica conveniente de que, cuando se multiplican por la probabilidad apropiada, producen una expresión de forma cerrada. Un ejemplo de esto es la beta anterior con la probabilidad binomial, o la gamma anterior con la probabilidad de Poisson. Hay tablas útiles de estos en todo Internet y Wikipedia. La familia exponencial es extremadamente conveniente a este respecto.
Los anteriores conjugados son a menudo la opción "predeterminada" para algunos problemas debido a sus propiedades convenientes, pero esto no significa necesariamente que sean los "mejores" a menos que el conocimiento previo de uno se pueda expresar a través del conjugado previo. Los avances en la computación significan que la conjugación ya no es tan apreciada como lo era antes (véase el muestreo de Gibbs frente a NUTS), por lo que podemos realizar inferencias más fácilmente con anteriores no conjugados sin muchos problemas.
fuente