A menudo se argumenta que el marco bayesiano tiene una gran ventaja en la interpretación (más frecuente), porque calcula la probabilidad de un parámetro dados los datos - lugar de como en el marco frecuentista. Hasta aquí todo bien.
Pero, toda la ecuación se basa en:
me parece poco sospechoso por 2 razones:
En muchos trabajos, se utilizan habitualmente anteriores no informativos (distribuciones uniformes) y luego solo , de modo que los bayesianos obtienen el mismo resultado que los frecuentistas, entonces, ¿cómo es entonces mejor el marco bayesiano en interpretación, cuando la probabilidad bayesiana posterior y frecuente es la misma distribución? Simplemente produce el mismo resultado.
Cuando se utilizan los antecedentes informativos, se obtienen resultados diferentes, pero el bayesiano se ve afectado por el previo subjetivo, por lo que toda la tiene el matiz subjetivo.
En otras palabras, todo el argumento de que es mejor en interpretación que basa en la presunción de que es una especie de "real", que normalmente no lo es. es solo un punto de partida, de alguna manera elegimos hacer que el MCMC se ejecute, una presunción, pero no es una descripción de la realidad (creo que no se puede definir).p ( x | θ ) p ( θ )
Entonces, ¿cómo podemos argumentar que bayesiano es mejor en interpretación?
fuente
uninformative or *objective* priors
? Lossubjective
previos son exactamente anteriores informativos .Respuestas:
Para dar una respuesta más estrecha que las excelentes que ya se han publicado, y centrarse en la ventaja en la interpretación, la interpretación bayesiana de, por ejemplo, "intervalo creíble del 95%" es que la probabilidad de que el verdadero valor del parámetro se encuentre dentro del intervalo es igual al 95%. Una de las dos interpretaciones frecuentes de un, por ejemplo, "intervalo de confianza del 95%", incluso si numéricamente las dos son idénticas, es que a largo plazo, si tuviéramos que realizar el procedimiento muchas veces, la frecuencia con la que el el intervalo cubriría el valor real convergería al 95%. El primero es intuitivo, el segundo no. Intente explicarle a un gerente en algún momento que no puede decir "La probabilidad de que nuestros paneles solares se degraden en menos del 20% en 25 años es del 95%", pero debe decir "
Una interpretación frecuentista alternativa sería "Antes de que se generaran los datos, había un 5% de posibilidades de que el intervalo que calcularía utilizando el procedimiento que establecí fuera completamente inferior al valor del parámetro verdadero. Sin embargo, ahora que hemos recopilado los datos, no podemos hacer ninguna declaración de este tipo, porque no somos subjetivistas y la probabilidad es 0 o 1, dependiendo de si está o no completamente por debajo del valor del parámetro verdadero ". Eso ayudará con los auditores y al calcular una reserva de garantía. (De hecho, esta definición me parece razonable, aunque no suele ser útil; tampoco es fácil de entender intuitivamente, y especialmente si no eres un estadístico).
Ni la interpretación frecuentista es intuitiva. La versión bayesiana es. De ahí la "gran ventaja en la interpretación" que tiene el enfoque bayesiano.
fuente
Tenga en cuenta que los antecedentes informativos no son necesariamente subjetivos, por ejemplo, no consideraría un conocimiento subjetivo afirmar que el conocimiento previo de algún sistema físico debería ser independiente de las unidades de medida (ya que son esencialmente arbitrarias), lo que lleva a la idea de grupos de transformación y antecedentes "mínimamente informativos".
La otra cara de ignorar el conocimiento subjetivo es que su sistema puede ser subóptimo porque está ignorando el conocimiento experto, por lo que la subjetividad no es necesariamente algo malo. Por ejemplo, en el problema habitual de "inferir el sesgo de una moneda", que a menudo se usa como un ejemplo motivador, aprenderá con relativa lentitud con un uniforme previo a medida que ingresen los datos. ¿Pero todas las cantidades de sesgo son igualmente probables? No, es fácil hacer una moneda ligeramente sesgada, o una que esté completamente sesgada (dos caras o dos monedas), por lo que si construimos esa suposición en nuestro análisis, a través de un previo subjetivo, necesitaremos menos datos para identificar qué sesgo en realidad es.
Los análisis frecuentes también suelen contener elementos subjetivos (por ejemplo, la decisión de rechazar la hipótesis nula si el valor p es inferior a 0,05, no hay una obligación lógica de hacerlo, es simplemente una tradición que ha demostrado ser útil). La ventaja del enfoque bayesiano es que la subjetividad se hace explícita en el cálculo, en lugar de dejarla implícita.
Al final del día, es una cuestión de "caballos para cursos", debe tener ambos conjuntos de herramientas en su caja de herramientas y estar preparado para usar la mejor herramienta para la tarea en cuestión.
fuente
El marco bayesiano tiene una gran ventaja sobre los frecuentistas porque no depende de tener una "bola de cristal" en términos de conocer las suposiciones de distribución correctas. Los métodos bayesianos dependen del uso de la información que tiene y de saber cómo codificar esa información en una distribución de probabilidad.
Usar métodos bayesianos es básicamente usar la teoría de probabilidad en toda su potencia. El teorema de Bayes no es más que una reformulación de la regla del producto clásico de la teoría de la probabilidad:
Ahora, si crees que el teorema de Bayes es sospechoso, entonces lógicamente, también debes pensar que la regla del producto también es sospechosa. Puede encontrar un argumento deductivo aquí , que deriva las reglas de producto y suma, similar al teorema de Cox. Puede encontrar una lista más explícita de los supuestos requeridos aquí .
Hasta donde yo sé, la inferencia frecuentista no se basa en un conjunto de fundamentos dentro de un marco lógico. Debido a que utiliza los axiomas de probabilidad de Kolmogorov, no parece haber ninguna conexión entre la teoría de probabilidad y la inferencia estadística. No existen axiomas para la inferencia frecuentista que conduzcan a un procedimiento a seguir. Existen principios y métodos (máxima verosimilitud, intervalos de confianza, valores p, etc.) y funcionan bien, pero tienden a aislarse y especializarse en problemas particulares. Creo que es mejor dejar los métodos frecuentistas vagos en sus fundamentos, al menos en términos de un marco lógico estricto.
El uso de un prior uniforme es a menudo una aproximación conveniente para hacer cuando la probabilidad es aguda en comparación con el anterior. A veces no vale la pena el esfuerzo de pasar y establecer adecuadamente un prior. Del mismo modo, no cometa el error de confundir las estadísticas bayesianas con MCMC. MCMC es solo un algoritmo para la integración, igual que el cuadrante guassiano, y en una clase similar a la aproximación de Laplace. Es un poco más útil que quadratre porque puedes reutilizar la salida del algoritmo para hacer todas tus integrales (las medias posteriores y las variaciones son integrales), y un poco más general que Laplace porque no necesitas una muestra grande o un pico bien redondeado en la parte posterior (aunque Laplace es más rápido).
fuente
Sin embargo, este no es (en mi opinión) el aspecto más importante de las metodologías bayesianas. Los métodos bayesianos son generativos, ya que proporcionan una "historia" completa de cómo surgieron los datos. Por lo tanto, no son simplemente buscadores de patrones, sino que son capaces de tener en cuenta la realidad completa de la situación en cuestión. Por ejemplo, considere LDA (asignación de Dirichlet latente), que proporciona una historia generativa completa de cómo se crea un documento de texto, que se parece a esto:
Por lo tanto, el modelo se ajusta en función de una comprensión muy específica de los objetos en el dominio (aquí, documentos de texto) y cómo se crearon; por lo tanto, la información que obtenemos se adapta directamente a nuestro dominio del problema (probabilidades de que los temas sean dados, probabilidades de que los temas se mencionen juntos, probabilidades de que los documentos contengan temas y en qué medida, etc.). El hecho de que se requiera el teorema de Bayes para hacer esto es casi secundario, de ahí la pequeña broma: "Bayes no sería un bayesiano y Cristo no sería un cristiano".
En resumen, los modelos bayesianos consisten en modelar rigurosamente los objetos de dominio utilizando distribuciones de probabilidad; por lo tanto, podemos codificar conocimiento que de otro modo no estaría disponible con una técnica simple y discriminativa.
fuente