Ha habido muchos debates dentro de las estadísticas entre bayesianos y frecuentistas. En general, me parece bastante desagradable (aunque creo que se ha calmado). Por otro lado, he conocido a varias personas que tienen una visión completamente pragmática del tema, diciendo que a veces es más conveniente realizar un análisis frecuentista y, a veces, es más fácil ejecutar un análisis bayesiano. Esta perspectiva me parece práctica y refrescante.
Se me ocurre que sería útil tener una lista de tales casos. Debido a que hay demasiados análisis estadísticos, y porque supongo que normalmente es más práctico llevar a cabo un análisis frecuentista (codificar una prueba t en WinBUGS es mucho más complicado que la llamada de función única requerida para realizar la versión basada en frecuentista en R , por ejemplo), sería bueno tener una lista de las situaciones en las que un enfoque bayesiano es más simple, más práctico y / o más conveniente que un enfoque frecuentista.
(Dos respuestas que no me interesan son: 'siempre' y 'nunca'. Entiendo que la gente tiene opiniones firmes, pero por favor no las exprese aquí. Si este hilo se convierte en un lugar para pequeñas disputas, probablemente eliminaré Mi objetivo aquí es desarrollar un recurso que sea útil para un analista con un trabajo que hacer, no un hacha para moler).
Las personas pueden sugerir más de un caso, pero utilice respuestas separadas para hacerlo, de modo que cada situación pueda ser evaluada (votada / discutida) individualmente. Las respuestas deben enumerar: (1) cuál es la naturaleza de la situación y (2) por qué el enfoque bayesiano es más simple en este caso. Algún código (digamos, en WinBUGS) que demuestre cómo se haría el análisis y por qué la versión bayesiana es más práctica sería ideal, pero espero que sea demasiado engorroso. Si se puede hacer fácilmente, lo agradecería, pero incluya por qué de cualquier manera.
Finalmente, reconozco que no he definido lo que significa que un enfoque sea "más simple" que otro. La verdad es que no estoy completamente seguro de lo que debería significar que un enfoque sea más práctico que el otro. Estoy abierto a diferentes sugerencias, solo especifique su interpretación cuando explique por qué un análisis bayesiano es más conveniente en la situación que discute.
fuente
lm ()
R es más fácil de usar? O hay algo más?t.test()
en lugar de codificar una prueba t bayesiana en WinBUGS, que requiere mucho más código. Quizás en lugar de "más práctico", debería haber dicho 'más fácil'.Respuestas:
(1) En contextos donde la función de probabilidad es intratable (al menos numéricamente), el uso del enfoque bayesiano, por medio del cálculo bayesiano aproximado (ABC), ha ganado terreno sobre algunos competidores frecuentistas, como las probabilidades compuestas ( 1 , 2 ) o la probabilidad empírica porque tiende a ser más fácil de implementar (no necesariamente correcta). Debido a esto, el uso de ABC se ha vuelto popular en áreas donde es común encontrar probabilidades intratables como la biología , la genética y la ecología . Aquí, podríamos mencionar un océano de ejemplos.
Algunos ejemplos de probabilidades intratables son
Procesos superpuestos. Cox y Smith (1954) propusieron un modelo en el contexto de la neurofisiología que consiste en procesos de puntos superpuestos. Por ejemplo, considere los tiempos entre los pulsos eléctricos observados en alguna parte del cerebro que fueron emitidos por varias neuronas durante un cierto período. Esta muestra contiene observaciones no iid que dificultan la construcción de la probabilidad correspondiente, lo que complica la estimación de los parámetros correspondientes. Recientemente se propuso una solución (parcial) frecuentista en este documento . La implementación del enfoque ABC también se ha estudiado recientemente y se puede encontrar aquí .N
La genética de poblaciones es otro ejemplo de modelos que conducen a probabilidades intratables. En este caso, la intratabilidad tiene una naturaleza diferente: la probabilidad se expresa en términos de una integral multidimensional (a veces de dimensión ) que tomaría un par de décadas para evaluarla en un solo punto. Esta área es probablemente la sede de ABC.1000+
fuente
A medida que el software bayesiano mejora, el tema "más fácil de aplicar" se vuelve discutible. El software bayesiano se está empaquetando en formas cada vez más fáciles. Un caso reciente es el de un artículo titulado, la estimación bayesiana reemplaza la prueba t . El siguiente sitio web proporciona enlaces al artículo y al software: http://www.indiana.edu/~kruschke/BEST/
Un extracto de la introducción del artículo:
fuente
(2) Modelos de resistencia al estrés. El uso de modelos de resistencia al estrés es popular en confiabilidad. La idea básica consiste en estimar el parámetro donde e son variables aleatorias. Curiosamente, el cálculo de la probabilidad de perfil de este parámetro es bastante difícil en general (incluso numéricamente) excepto por algunos ejemplos de juguetes, como el caso exponencial o normal. Por esta razón, las soluciones frecuentas ad hoc deben considerarse, como la probabilidad empírica ( verθ=P(X<Y) X Y ) o intervalos de confianza cuya construcción también es difícil en un marco general. Por otro lado, el uso de un enfoque bayesiano es muy simple dado que si tiene una muestra de la distribución posterior de los parámetros de las distribuciones de e , puede transformarlos fácilmente en una muestra de la parte posterior de .X Y θ
Sea una variable aleatoria con densidad y distribución dada respectivamente por y . Del mismo modo, sea una variable aleatoria con densidad y distribución dada respectivamente por y . EntoncesX f(x;ξ1) F(x;ξ1) Y g(y;ξ2) G(y;ξ2)
Tenga en cuenta que este parámetro es una función de los parámetros . En los casos exponenciales y normales, esto puede expresarse en forma cerrada ( ver ), pero este no es el caso en general (ver este artículo para un ejemplo). Esto complica el cálculo de la probabilidad de perfil de y, en consecuencia, la inferencia de intervalo clásica en este parámetro. El problema principal se puede resumir de la siguiente manera: "El parámetro de interés es una función desconocida / complicada de los parámetros del modelo y, por lo tanto, no podemos encontrar una reparametrización que involucre el parámetro de interés".θ(ξ1,ξ2) θ
Desde una perspectiva bayesiana, esto no es un problema dado que si tenemos una muestra de la distribución posterior de , simplemente podemos ingresar estas muestras en para obtener una muestra de la posterior de y proporcionar inferencia de intervalo para este parámetro.( ⋆ ) θ(ξ1,ξ2) (⋆) θ
fuente
Estoy entrenado en estadísticas frecuentistas (econometría en realidad), pero nunca he tenido una postura de confrontación hacia el enfoque bayesiano, ya que mi punto de vista es que la fuente filosófica de esta batalla "épica" estuvo fundamentalmente equivocada desde el principio (he transmitido mis puntos de vista aquí ). De hecho, planeo entrenarme también en el enfoque bayesiano en el futuro inmediato.
¿Por qué? Debido a que uno de los aspectos de la estadística frecuentista que más me fascina como un esfuerzo matemático y conceptual, al mismo tiempo, me preocupa más: los asintóticos del tamaño de la muestra. Al menos en econometría, casi noEl artículo serio de hoy afirma que cualquiera de los diversos estimadores que se aplican generalmente en la econometría frecuentista posee cualquiera de las propiedades deseables de "muestra pequeña" que quisiéramos de un estimador. Todos se basan en propiedades asintóticas para justificar su uso. La mayoría de las pruebas utilizadas tienen propiedades deseables solo asintóticamente ... Pero ya no estamos en "z-land / t-land": todo el aparato sofisticado (y formidable) de la estimación e inferencia frecuentista moderna también es altamente idiosincrásico, lo que significa que a veces, se necesita una muestra de laaaaaaaaaaaarge para que estas preciosas propiedades asintóticas emerjan y afecten favorablemente las estimaciones derivadas de los estimadores, como lo han demostrado varias simulaciones. Es decir, decenas de miles de observaciones, que aunque comienzan a estar disponibles para algunos campos de actividad económica (como el mercado laboral o financiero), hay otras (como la macroeconomía) en las que nunca lo harán (al menos durante mi vida). Y eso me molesta bastante, porque hace que los resultados derivados realmenteincierto (no solo estocástico).
La econometría bayesiana para muestras pequeñas no se basa en resultados asintóticos. "¡Pero confían en el previo subjetivo !" es la respuesta habitual ... a lo cual, mi respuesta simple y práctica, es la siguiente: "si el fenómeno es antiguo y se estudió antes, lo anterior se puede estimar a partir de datos pasados. Si el fenómeno es nuevo , por qué más si no por argumentos subjetivos podemos comenzar la discusión al respecto ?
fuente
Esta es una respuesta tardía, sin embargo, espero que agregue algo. He recibido capacitación en telecomunicaciones, donde la mayoría de las veces usamos el enfoque bayesiano.
Aquí hay un ejemplo simple: suponga que puede transmitir cuatro señales posibles de +5, +2.5, -2.5 y -5 voltios. Una de las señales de este conjunto se transmite, pero la señal está corrompida por el ruido gaussiano cuando llega al final de la recepción. En la práctica, la señal también se atenúa, pero eliminaremos este problema por simplicidad. La pregunta es: si está en el extremo receptor, ¿cómo diseña un detector que le indique cuál de estas señales se transmitió originalmente?
Este problema obviamente reside en el dominio de la prueba de hipótesis. Sin embargo, no puede usar valores p, ya que las pruebas de significancia pueden rechazar potencialmente las cuatro hipótesis posibles, y usted sabe que una de estas señales se transmitió realmente. Podemos utilizar el método de Neyman-Pearson para diseñar un detector en principio, pero este método funciona mejor para hipótesis binarias. Para múltiples hipótesis, se vuelve demasiado torpe cuando necesita lidiar con un número de restricciones para las probabilidades de falsa alarma. Una alternativa simple es la prueba de hipótesis bayesiana. Cualquiera de estas señales podría haber sido elegida para ser transmitida, por lo que la anterior es equiprobable. En tales casos equiprobables, el método se reduce a elegir la señal con la máxima probabilidad. Este método puede tener una buena interpretación geométrica: elija la señal que esté más cerca de la señal recibida. Esto también conduce a la partición del espacio de decisión en varias regiones de decisión, de modo que si la señal recibida cayera dentro de una región particular, entonces se decide que la hipótesis asociada con esa región de decisión es verdadera. Por lo tanto, el diseño de un detector se hace fácil.
fuente
Las llamadas pruebas estadísticas 'frequentistas' son típicamente equivalentes al enfoque bayesiano en principio más complejo bajo ciertos supuestos. Cuando estas suposiciones son aplicables, cualquiera de los dos enfoques dará el mismo resultado, por lo que es seguro usar la prueba Frequentist más fácil de aplicar. El enfoque bayesiano es más seguro en general porque hace explícitos los supuestos, pero si sabe lo que está haciendo, la prueba Frecuentista suele ser tan buena como un enfoque bayesiano y, por lo general, es más fácil de aplicar.
fuente
(Intentaré lo que pensé que sería el tipo de respuesta más típico).
Supongamos que tiene una situación en la que hay varias variables y una respuesta, y sabe mucho sobre cómo una de las variables debería estar relacionada con la respuesta, pero no tanto sobre las demás.
En una situación como esta, si tuviera que ejecutar un análisis de regresión múltiple estándar, ese conocimiento previo no se tendría en cuenta. Posteriormente, se podría realizar un metanálisis, que podría ser interesante para arrojar luz sobre si el resultado actual era consistente con los otros hallazgos y podría permitir una estimación un poco más precisa (al incluir el conocimiento previo en ese punto). Pero ese enfoque no permitiría que lo que se sabía sobre esa variable influyera en las estimaciones de las otras variables.
Otra opción es que sería posible codificar y optimizar su propia función que corrige la relación con la variable en cuestión y encuentra valores de parámetros para las otras variables que maximizan la probabilidad de los datos dada esa restricción. El problema aquí es que, si bien la primera opción no restringe adecuadamente la estimación beta, este enfoque la sobreexige.
Puede ser posible manipular un algoritmo que aborde la situación de manera más apropiada, situaciones como esta parecen ser candidatos ideales para el análisis bayesiano. Cualquiera que no se oponga dogmáticamente al enfoque bayesiano debería estar dispuesto a probarlo en casos como este.
fuente
Un área de investigación en la que los métodos bayesianos son extremadamente sencillos y los métodos frequentistas son extremadamente difíciles de seguir es el del diseño óptimo .
En una versión simple del problema, le gustaría estimar un solo coeficiente de regresión de una regresión logística de la manera más eficiente posible. Se le permite tomar una sola muestra con igual a lo que desee, actualice su estimación para y luego elija su próxima , etc. hasta su estimación para cumple con cierto nivel de precisión. β x ( 2 ) βx(1) β x(2) β
La parte difícil es que el verdadero valor de determinará cuál es la elección óptima de . Puede considerar usar la estimación actual de de con el entendimiento de que está ignorando el error en . Como tal, puede obtener una opción quizás ligeramente subóptima de dada una estimación razonable de .x ( i ) β β β x ( i ) ββ x(i) β^ β β^ x(i) β
¿Pero qué pasa cuando comienzas por primera vez? No tiene una estimación frecuente de , porque no tiene datos . Por lo tanto, deberá recopilar algunos datos (definitivamente de una manera muy subóptima), sin mucha teoría orientadora que le indique qué elegir. E incluso después de algunas elecciones, el efecto Hauck-Donner puede evitar que tenga una estimación definida de . Si lees sobre la literatura frequentista sobre cómo lidiar con esto, básicamente se trata de "elegir aleatoriamente 's hasta que exista un valor de tal que haya 0 y 1 por encima y por debajo de ese punto" (lo que significa Hauck-Donner el efecto no ocurrirá).β x xβ β x x
Desde la perspectiva bayesiana, este problema es muy fácil.
La literatura frequentista se inclinará hacia atrás para intentar encontrar valores razonables de para los que con suerte pueda tomar muestras y evitar el efecto Hauck-Donner para que pueda comenzar a tomar muestras subóptimas ... mientras que el método Bayesiano es todo muy fácil y tiene en cuenta la incertidumbre en el parámetro de interés.x
fuente
Quizás uno de los casos más directos y comunes en los que el enfoque bayesiano es más fácil es la cuantificación de la incertidumbre de los parámetros.
En esta respuesta, no me refiero a la interpretación de los intervalos de confianza frente a los intervalos creíbles. Por el momento, supongamos que un usuario está bien con cualquiera de los métodos.
Dicho esto, en el marco bayesiano, es sencillo; Es la varianza marginal de la parte posterior para cualquier parámetro individual de interés. Suponiendo que pueda muestrear desde la parte posterior, simplemente tome sus muestras y calcule sus variaciones. ¡Hecho!
En el caso de Frequentist, esto suele ser sencillo en algunos casos y es un verdadero dolor cuando no lo es. Si tenemos una gran cantidad de muestras versus una pequeña cantidad de parámetros (y quién sabe realmente qué tan grande es lo suficientemente grande), podemos usar la teoría MLE para derivar los IC. Sin embargo, esos criterios no siempre se cumplen, especialmente para casos interesantes (es decir, modelos de efectos mixtos). ¡A veces podemos usar bootstrapping, pero a veces no podemos! En los casos en que no podemos, puede ser muy, muy difícil obtener estimaciones de error, y a menudo requieren un poco de inteligencia (es decir, la fórmula de Greenwood para derivar SE's para las curvas de Kaplan Meier). ¡"Usar algo de inteligencia" no siempre es una receta confiable!
fuente