¿Cómo es mejor el marco bayesiano en la interpretación cuando usualmente usamos antecedentes no informativos o subjetivos?

18

A menudo se argumenta que el marco bayesiano tiene una gran ventaja en la interpretación (más frecuente), porque calcula la probabilidad de un parámetro dados los datos - lugar de como en el marco frecuentista. Hasta aquí todo bien.p(θ|x)p(x|θ)

Pero, toda la ecuación se basa en:

p(θ|x)=p(x|θ).p(θ)p(x)

me parece poco sospechoso por 2 razones:

  1. En muchos trabajos, se utilizan habitualmente anteriores no informativos (distribuciones uniformes) y luego solo , de modo que los bayesianos obtienen el mismo resultado que los frecuentistas, entonces, ¿cómo es entonces mejor el marco bayesiano en interpretación, cuando la probabilidad bayesiana posterior y frecuente es la misma distribución? Simplemente produce el mismo resultado.p(θ|x)=p(x|θ)

  2. Cuando se utilizan los antecedentes informativos, se obtienen resultados diferentes, pero el bayesiano se ve afectado por el previo subjetivo, por lo que toda la tiene el matiz subjetivo.p(θ|x)

En otras palabras, todo el argumento de que es mejor en interpretación que basa en la presunción de que es una especie de "real", que normalmente no lo es. es solo un punto de partida, de alguna manera elegimos hacer que el MCMC se ejecute, una presunción, pero no es una descripción de la realidad (creo que no se puede definir).p ( x | θ ) p ( θ )p(θ|x)p(x|θ)p(θ)

Entonces, ¿cómo podemos argumentar que bayesiano es mejor en interpretación?

Curioso
fuente
44
(1) parece sospechoso porque su conclusión es incorrecta: los resultados bayesianos con antecedentes no informativos no son necesariamente lo mismo que las conclusiones frecuentistas. De hecho, en muchos casos parece no haber acuerdo sobre lo que es incluso un "previo poco informativo". (2) también es discutible porque supone implícitamente que cada suposición hecha en un análisis frecuentista no es subjetiva, pero ese no es el caso. Finalmente, ¿qué quiere decir exactamente con "mejor interpretación"? Su pregunta es ambigua sin una definición de eso.
whuber
1
Además del comentario de Whuber, me gustaría decir que no hay una razón general por la que Bayes sea mejor que frecuentista, de ahí el argumento. A veces Bayes da resultados significativos y, a veces, la forma frecuenta es mejor. Sin embargo, en el campo aplicado, no debería haber ninguna razón por la cual uno debería obtener resultados muy diferentes. Desde una perspectiva filosófica, Bayes es definitivamente fuerte, pero como todos sabemos, la teoría y la práctica difieren, a veces drásticamente. Además, estoy un poco preocupado por tu primer párrafo. Me parece que eres un Bayesiano comprometido (no tiene nada de malo).
suncoolsu
¿No debería ser el título uninformative or *objective* priors? Los subjectiveprevios son exactamente anteriores informativos .
Java

Respuestas:

15

Para dar una respuesta más estrecha que las excelentes que ya se han publicado, y centrarse en la ventaja en la interpretación, la interpretación bayesiana de, por ejemplo, "intervalo creíble del 95%" es que la probabilidad de que el verdadero valor del parámetro se encuentre dentro del intervalo es igual al 95%. Una de las dos interpretaciones frecuentes de un, por ejemplo, "intervalo de confianza del 95%", incluso si numéricamente las dos son idénticas, es que a largo plazo, si tuviéramos que realizar el procedimiento muchas veces, la frecuencia con la que el el intervalo cubriría el valor real convergería al 95%. El primero es intuitivo, el segundo no. Intente explicarle a un gerente en algún momento que no puede decir "La probabilidad de que nuestros paneles solares se degraden en menos del 20% en 25 años es del 95%", pero debe decir "

Una interpretación frecuentista alternativa sería "Antes de que se generaran los datos, había un 5% de posibilidades de que el intervalo que calcularía utilizando el procedimiento que establecí fuera completamente inferior al valor del parámetro verdadero. Sin embargo, ahora que hemos recopilado los datos, no podemos hacer ninguna declaración de este tipo, porque no somos subjetivistas y la probabilidad es 0 o 1, dependiendo de si está o no completamente por debajo del valor del parámetro verdadero ". Eso ayudará con los auditores y al calcular una reserva de garantía. (De hecho, esta definición me parece razonable, aunque no suele ser útil; tampoco es fácil de entender intuitivamente, y especialmente si no eres un estadístico).

Ni la interpretación frecuentista es intuitiva. La versión bayesiana es. De ahí la "gran ventaja en la interpretación" que tiene el enfoque bayesiano.

jbowman
fuente
Mi problema con el argumento anti frecuentista es que trata demasiado de describir el procedimiento como una respuesta. Pruebe el mismo experimento por usted mismo en interpretación, pero con respecto a qué conclusión sacar de los resultados. ¿Cómo exactamente actuarías de manera diferente en base a escuchar los resultados dados por un frecuentista y un bayesiano? En realidad, seguirás actuando igual cuando entiendas a ambos. No hay necesidad de pasar al nivel del procedimiento para explicar que "lo mejor es actuar de manera tal y según la confianza dada por los datos".
PascalVKooten
Además, por definición, tendrá que dar más explicaciones en el caso bayesiano, ya que no solo tiene "lo que nos dicen los datos" sino también qué información contiene el anterior. Los bayesianos tienden a hacer una larga explicación frecuentista, pero no explican qué prioricieron, por qué eligieron un prior y específicamente por qué ese prior.
PascalVKooten
Bueno, estaré parcialmente en desacuerdo con tu último punto. Como ejemplo, cuando estaba haciendo un análisis de confiabilidad en equipos muy, muy caros en mi trabajo anterior, tratamos los resultados de nuestro análisis de confiabilidad anterior como uno anterior para nuestro nuevo, ponderado en términos de "tamaño de muestra equivalente" a tener en cuenta la no estacionariedad del mundo real y los pequeños cambios en el diseño, etc. Y, realmente, las estadísticas bayesianas se trata de actualizar su previo con datos; las estadísticas clásicas no se "actualizan", por lo que solo obtendrá los mismos resultados si su anterior es plano, con algunas excepciones.
jbowman
Simplemente fusionaría los conjuntos de datos y realizaría otro análisis ... no es necesario llegar a un previo. No hay mejores datos anteriores que reales: obtienes un posterior "real" basado en datos.
PascalVKooten
Bueno, es posible que no desee exactamente el anterior anterior para su nuevo anterior, en nuestro caso debido a los cambios de diseño menores en curso y nuestro conocimiento de que el MFG. el proceso también estaba evolucionando, haciendo que nuestro anterior no fuera 100% informativo para datos futuros. También puede haber consideraciones de tiempo de ejecución. Pero su punto es generalmente bueno, me parece.
jbowman
13

p(θ|x)p(x|θ)p(x|θ)p(θ|x)

Tenga en cuenta que los antecedentes informativos no son necesariamente subjetivos, por ejemplo, no consideraría un conocimiento subjetivo afirmar que el conocimiento previo de algún sistema físico debería ser independiente de las unidades de medida (ya que son esencialmente arbitrarias), lo que lleva a la idea de grupos de transformación y antecedentes "mínimamente informativos".

La otra cara de ignorar el conocimiento subjetivo es que su sistema puede ser subóptimo porque está ignorando el conocimiento experto, por lo que la subjetividad no es necesariamente algo malo. Por ejemplo, en el problema habitual de "inferir el sesgo de una moneda", que a menudo se usa como un ejemplo motivador, aprenderá con relativa lentitud con un uniforme previo a medida que ingresen los datos. ¿Pero todas las cantidades de sesgo son igualmente probables? No, es fácil hacer una moneda ligeramente sesgada, o una que esté completamente sesgada (dos caras o dos monedas), por lo que si construimos esa suposición en nuestro análisis, a través de un previo subjetivo, necesitaremos menos datos para identificar qué sesgo en realidad es.

Los análisis frecuentes también suelen contener elementos subjetivos (por ejemplo, la decisión de rechazar la hipótesis nula si el valor p es inferior a 0,05, no hay una obligación lógica de hacerlo, es simplemente una tradición que ha demostrado ser útil). La ventaja del enfoque bayesiano es que la subjetividad se hace explícita en el cálculo, en lugar de dejarla implícita.

Al final del día, es una cuestión de "caballos para cursos", debe tener ambos conjuntos de herramientas en su caja de herramientas y estar preparado para usar la mejor herramienta para la tarea en cuestión.

Dikran Marsupial
fuente
6

El marco bayesiano tiene una gran ventaja sobre los frecuentistas porque no depende de tener una "bola de cristal" en términos de conocer las suposiciones de distribución correctas. Los métodos bayesianos dependen del uso de la información que tiene y de saber cómo codificar esa información en una distribución de probabilidad.

Usar métodos bayesianos es básicamente usar la teoría de probabilidad en toda su potencia. El teorema de Bayes no es más que una reformulación de la regla del producto clásico de la teoría de la probabilidad:

p(θx|I)=p(θ|I)p(x|θI)=p(x|I)p(θ|xI)

p(x|I)0I

Ahora, si crees que el teorema de Bayes es sospechoso, entonces lógicamente, también debes pensar que la regla del producto también es sospechosa. Puede encontrar un argumento deductivo aquí , que deriva las reglas de producto y suma, similar al teorema de Cox. Puede encontrar una lista más explícita de los supuestos requeridos aquí .

Hasta donde yo sé, la inferencia frecuentista no se basa en un conjunto de fundamentos dentro de un marco lógico. Debido a que utiliza los axiomas de probabilidad de Kolmogorov, no parece haber ninguna conexión entre la teoría de probabilidad y la inferencia estadística. No existen axiomas para la inferencia frecuentista que conduzcan a un procedimiento a seguir. Existen principios y métodos (máxima verosimilitud, intervalos de confianza, valores p, etc.) y funcionan bien, pero tienden a aislarse y especializarse en problemas particulares. Creo que es mejor dejar los métodos frecuentistas vagos en sus fundamentos, al menos en términos de un marco lógico estricto.

1θ

2

El uso de un prior uniforme es a menudo una aproximación conveniente para hacer cuando la probabilidad es aguda en comparación con el anterior. A veces no vale la pena el esfuerzo de pasar y establecer adecuadamente un prior. Del mismo modo, no cometa el error de confundir las estadísticas bayesianas con MCMC. MCMC es solo un algoritmo para la integración, igual que el cuadrante guassiano, y en una clase similar a la aproximación de Laplace. Es un poco más útil que quadratre porque puedes reutilizar la salida del algoritmo para hacer todas tus integrales (las medias posteriores y las variaciones son integrales), y un poco más general que Laplace porque no necesitas una muestra grande o un pico bien redondeado en la parte posterior (aunque Laplace es más rápido).

probabilidadislogica
fuente
3

μ=0) colocado sobre un coeficiente de regresión, codificando el conocimiento de que todas las cosas son iguales, preferimos soluciones en las que los coeficientes tengan magnitudes más bajas. Esto es para evitar sobreajustar un conjunto de datos, al encontrar soluciones que maximicen la función objetivo pero que no tengan sentido en el contexto particular de nuestro problema. En cierto sentido, proporcionan una forma de dar al modelo estadístico algunas "pistas" sobre un dominio particular.

Sin embargo, este no es (en mi opinión) el aspecto más importante de las metodologías bayesianas. Los métodos bayesianos son generativos, ya que proporcionan una "historia" completa de cómo surgieron los datos. Por lo tanto, no son simplemente buscadores de patrones, sino que son capaces de tener en cuenta la realidad completa de la situación en cuestión. Por ejemplo, considere LDA (asignación de Dirichlet latente), que proporciona una historia generativa completa de cómo se crea un documento de texto, que se parece a esto:

  1. Seleccione una combinación de temas en función de la probabilidad de que coexistan temas particulares; y
  2. Seleccione un conjunto de palabras del vocabulario, condicionadas en función de los temas seleccionados.

Por lo tanto, el modelo se ajusta en función de una comprensión muy específica de los objetos en el dominio (aquí, documentos de texto) y cómo se crearon; por lo tanto, la información que obtenemos se adapta directamente a nuestro dominio del problema (probabilidades de que los temas sean dados, probabilidades de que los temas se mencionen juntos, probabilidades de que los documentos contengan temas y en qué medida, etc.). El hecho de que se requiera el teorema de Bayes para hacer esto es casi secundario, de ahí la pequeña broma: "Bayes no sería un bayesiano y Cristo no sería un cristiano".

En resumen, los modelos bayesianos consisten en modelar rigurosamente los objetos de dominio utilizando distribuciones de probabilidad; por lo tanto, podemos codificar conocimiento que de otro modo no estaría disponible con una técnica simple y discriminativa.

William
fuente