¿Por qué debería ser bayesiano cuando mi modelo está equivocado?

68

Ediciones: He agregado un ejemplo simple: inferencia de la media de la Xyo . También he aclarado ligeramente por qué los intervalos creíbles que no coinciden con los intervalos de confianza son malos.

Yo, un bayesiano bastante devoto, estoy en medio de una especie de crisis de fe.

Mi problema es el siguiente. Suponga que quiero analizar algunos datos IID . Lo que haría es:Xyo

  • primero, proponga un modelo condicional:

    pags(XEl |θ)
  • Luego, elija un previo en : θ

    pags(θ)
  • Finalmente, aplique la regla de Bayes, calcule la parte posterior: (o alguna aproximación a ella si no puede ser cuestionable) y responda todas las preguntas que tenga sobrepags(θEl |X1...Xnorte)θ

Este es un enfoque sensato: si el verdadero modelo de los datos está "dentro" de mi condicional (corresponde a algún valor ), entonces puedo recurrir a la teoría de decisión estadística para decir que mi método es admisible (ver Robert's "La opción bayesiana" para más detalles; "Todas las estadísticas" también da una explicación clara en el capítulo correspondiente).Xyoθ0 0

Sin embargo, como todos saben, asumir que mi modelo es correcto es bastante arrogante: ¿por qué la naturaleza debe caer perfectamente dentro de la caja de los modelos que he considerado? Es mucho más realista suponer que el modelo real de los datos difiere de para todos los valores de . Esto generalmente se llama un modelo "mal especificado".p ( X | θ ) θpagstrtumi(X)pags(XEl |θ)θ

Mi problema es que, en este caso más realista y mal especificado, no tengo ningún buen argumento para ser bayesiano (es decir, calcular la distribución posterior) versus simplemente calcular el Estimador de máxima verosimilitud (MLE):

θ^METROL=argmaxθ[pags(X1...XnorteEl |θ)]

De hecho, según Kleijn, vd Vaart (2012) , en el caso mal especificado, la distribución posterior:

  • converge como a una distribución dirac centrada en atheta M Lnorteθ^METROL

  • no tiene la varianza correcta (a menos que dos valores sean iguales) para garantizar que los intervalos creíbles de los intervalos de confianza coincidentes posteriores para . (Tenga en cuenta que, si bien los intervalos de confianza son obviamente algo que a los bayesianos no les importa en exceso, esto cualitativamente significa que la distribución posterior es intrínsecamente incorrecta, ya que implica que sus intervalos creíbles no tienen una cobertura correcta)θ

Por lo tanto, estamos pagando una prima computacional (la inferencia bayesiana, en general, es más costosa que MLE) por no tener propiedades adicionales

Por lo tanto, finalmente, mi pregunta: ¿hay algún argumento, ya sea teórico o empírico, para usar la inferencia bayesiana sobre la alternativa MLE más simple cuando el modelo está mal especificado?

(Como sé que mis preguntas a menudo no son claras, avíseme si no comprende algo: intentaré reformularlo)

Editar: consideremos un ejemplo simple: inferir la media de bajo un modelo gaussiano (con varianza conocida para simplificar aún más). Consideramos un previo gaussiano: denotamos la media anterior, la varianza inversa del previo. Sea el medio empírico de . Finalmente, tenga en cuenta: . σ μ 0 β 0 ˉ X X i μ = ( β 0 μ 0 + nXyoσμ0 0β0 0X¯Xyoμ=(β0 0μ0 0+norteσ2X¯)/ /(β0 0+norteσ2)

La distribución posterior es:

pags(θEl |X1...Xnorte)Exp(-(β0 0+norteσ2)(θ-μ)2/ /2)

En el caso correctamente especificado (cuando realmente tiene una distribución gaussiana), este posterior tiene las siguientes propiedades agradablesXyo

  • Si los se generan a partir de un modelo jerárquico en el que su media compartida se selecciona de la distribución anterior, entonces los intervalos creíbles posteriores tienen una cobertura exacta. Condicional a los datos, la probabilidad de que esté en cualquier intervalo es igual a la probabilidad de que la parte posterior se atribuya a este intervalo θXyoθ

  • Incluso si lo anterior no es correcto, los intervalos creíbles tienen una cobertura correcta en el límite en el que la influencia previa en el posterior desaparecenorte

  • el posterior además tiene buenas propiedades frecuentistas: se garantiza que cualquier estimador bayesiano construido a partir del posterior es admisible, la media posterior es un estimador eficiente (en el sentido de Cramer-Rao) de la media, los intervalos creíbles son, asintóticamente, intervalos de confianza.

En el caso mal especificado, la mayoría de estas propiedades no están garantizadas por la teoría. Para arreglar ideas, supongamos que el modelo real para es que, en cambio, son distribuciones de Estudiantes. La única propiedad que podemos garantizar (Kleijn et al) es que la distribución posterior se concentra en la media real de en el límite . En general, todas las propiedades de cobertura desaparecerían. Peor aún, en general, podemos garantizar que, en ese límite, las propiedades de cobertura son fundamentalmente incorrectas: la distribución posterior atribuye la probabilidad incorrecta a varias regiones del espacio.X i n XyoXyonorte

Guillaume Dehaene
fuente
2
Bueno, los enfoques bayesianos se regularizan. Eso es algo, para ayudar contra el sobreajuste, ya sea que su modelo esté mal especificado o no. Por supuesto, eso solo lleva a la pregunta relacionada sobre los argumentos para la inferencia bayesiana contra los enfoques clásicos regularizados (lazo, regresión de cresta, red elástica, etc.).
S. Kolassa - Restablece a Mónica el
3
Quizás te interese este trabajo y sus parientes.
Dougal
77
Cuando su modelo está mal especificado en términos de uso de una función de probabilidad incorrecta, entonces las estimaciones MLE y Bayesianas estarían equivocadas ...
Tim
55
@Tim: la inferencia Bayesiana y MLE no carece de sentido en el caso mal especificado: ambos intentan recuperar el valor del parámetro que da la mejor cuenta de los datos dentro de los modelos condicionales. Más precisamente, es el argumento de donde KL es la divergencia Kullback Leibler. Bajo suposiciones leves, tanto MLE como inferencia bayesiana identifican correctamente esta cuando se les proporciona una cantidad suficiente de datos ˜ θ 0KL[p(X),p(X|θ)] ˜ θ 0θ~0 0θ~0 0KL[pags(X),pags(XEl |θ)]θ~0 0
Guillaume Dehaene
3
@amoeba Imagino un aspecto bayesiano duro y actúo como el comandante Che
Aksakal

Respuestas:

31

Considero el enfoque bayesiano cuando mi conjunto de datos no es todo lo que se sabe sobre el tema, y ​​quiero incorporar de alguna manera ese conocimiento exógeno en mi pronóstico.

Por ejemplo, mi cliente quiere un pronóstico de los incumplimientos de préstamos en su cartera. Tienen 100 préstamos con algunos años de datos históricos trimestrales. Hubo algunos casos de morosidad (pago atrasado) y solo un par de incumplimientos. Si trato de estimar el modelo de supervivencia en este conjunto de datos, habrá muy pocos datos para estimar y demasiada incertidumbre para pronosticar.

Por otro lado, los gerentes de cartera son personas con experiencia, algunos de ellos pueden haber pasado décadas administrando relaciones con prestatarios. Tienen ideas sobre cómo deberían ser las tasas de incumplimiento. Por lo tanto, son capaces de encontrar antecedentes razonables. Tenga en cuenta, no los priores que tienen buenas propiedades matemáticas y se ven intelectualmente atractivo para mí . Charlaré con ellos y extraeré sus experiencias y conocimientos en forma de esos antecedentes.

Ahora, el marco bayesiano me proporcionará mecanismos para unir el conocimiento exógeno en forma de antecedentes con los datos y, en mi opinión, obtener el posterior que sea superior al juicio cualitativo puro y al pronóstico impulsado por datos puros. Esto no es una filosofía y no soy bayesiano. Solo estoy usando las herramientas bayesianas para incorporar constantemente el conocimiento experto en la estimación basada en datos.

Aksakal
fuente
3
Un muy buen punto. La inferencia bayesiana ofrece un marco para resolver con precisión una tarea como la que usted ha presentado. Gracias.
Guillaume Dehaene
55
Este es un argumento general para el modelado bayesiano, pero ¿cómo se relaciona con el caso específico del modelo mal especificado? No veo una conexión
Richard Hardy
44
Bueno, se relaciona con mi pregunta: incluso en el caso mal especificado, la inferencia bayesiana maneja mejor (es decir, de una manera más basada en principios) la información cualitativa, a través de los métodos anteriores, que los MLE, que tendrían que funcionar con regularizadores. Es una forma de argumento empírico sobre por qué la inferencia bayesiana es ligeramente mejor que la MLE.
Guillaume Dehaene
2
@ Aksakal, si los modelos están mal especificados está fuera del punto. Lo que me preocupa es que no respondas la pregunta. (Si el OP no está de acuerdo, entonces creo que ha hecho un mal trabajo al formular la pregunta). Pero veo que ha habido una edición reciente, por lo que tal vez la pregunta ya haya cambiado.
Richard Hardy
44
@ Richard Hardy, creo que mi respuesta entra en el corazón de la crisis de fe de OP, que se basa en la idea de que si su modelo condicional está mal especificado, dominará al anterior con un aumento en el tamaño de la muestra y su posterior será empujado hacia el modelo incorrecto . En este caso, ¿por qué preocuparse por Bayesian para empezar, por qué no solo para MLE, pregunta? Mi ejemplo es decididamente no filosófico, sino práctico: a menudo se trata no solo de muestras finitas, sino pequeñas. Por lo tanto, sus datos no arrastrarán la parte posterior demasiado lejos de la anterior, lo que representa el conocimiento exógeno.
Aksakal
25

Una pregunta muy interesante ... que puede no tener una respuesta (¡pero eso no lo hace menos interesante!)

Algunas reflexiones (¡y muchos enlaces a las entradas de mi blog!) Sobre ese meme de que todos los modelos están equivocados :

  1. Si bien el modelo hipotético es, de hecho, casi siempre invariable e irremediablemente incorrecto , aún tiene sentido actuar de manera eficiente o coherente con respecto a este modelo si es lo mejor que se puede hacer. La inferencia resultante produce una evaluación del modelo formal que es el "más cercano" al modelo actual de generación de datos (si existe);
  2. Existen enfoques bayesianos que pueden prescindir del modelo , un ejemplo más reciente son los documentos de Bissiri et al. (con mis comentarios ) y por Watson y Holmes (que discutí con Judith Rousseau );
  3. De una manera conectada, existe toda una rama de estadísticas bayesianas que se ocupan de la inferencia M-abierta ;
  4. Y otra dirección que me gusta mucho es el enfoque SafeBayes de Peter Grünwald , que tiene en cuenta la especificación errónea del modelo para reemplazar la probabilidad con una versión reducida expresada como un poder de la probabilidad original.
  5. El muy reciente Read Paper de Gelman y Hennig aborda este problema, aunque de forma circunvolucionada (y agregué algunos comentarios en mi blog ). Supongo que podría reunir material para una discusión de las entradas sobre su pregunta.
  6. En cierto sentido, los bayesianos deberían ser los menos preocupados entre los estadísticos y los modeladores sobre este aspecto, ya que el modelo de muestreo debe tomarse como uno de varios supuestos anteriores y el resultado es condicional o relativo a todos esos supuestos anteriores.
Xi'an
fuente
2
Es muy bueno tener tu opinión sobre esto. Su primer punto tiene sentido intuitivo: si el modelo no está demasiado equivocado, entonces el resultado de nuestra inferencia debería estar bien. Sin embargo, ¿alguien ha probado algún resultado así (o ha explorado la pregunta empíricamente)? Su último punto (que podría haber entendido mal) me deja perplejo: el modelo de muestreo es una elección crítica. El hecho de que también hagamos elecciones no significa que los errores en la elección del modelo de muestreo no puedan manchar todo el modelo. Gracias por las referencias y el maravilloso blog.
Guillaume Dehaene
Para el punto 1., ¿por qué no promediar el modelo bayesiano? ¿Por qué simplemente usar el "mejor" modelo?
innisfree
@innisfree: todo depende de lo que planeas hacer con el resultado, no tengo ninguna religión sobre el promedio de modelos versus el mejor modelo.
Xi'an
1
Parece estar sugiriendo que hay un aspecto teórico de decisión de promediar la incertidumbre del modelo versus elegir solo el "mejor" modelo. Seguramente siempre es ventajoso, es decir, ayuda a tomar mejores decisiones, incorporar coherentemente todas las incertidumbres, incluidas las incertidumbres del modelo.
innisfree
2
Mi principal objeción a los no paramétricos es práctica: son más caros computacionalmente en varios órdenes de magnitud en comparación con alternativas más simples. Además, ¿no tenemos problemas con los no paramétricos, porque es casi imposible que dos distribuciones anteriores tengan soporte común? Eso significa que el prior tendría una gran influencia y que sería (casi) imposible para los estadísticos bayesianos ponerse de acuerdo al comenzar desde diferentes priors.
Guillaume Dehaene
12

Ediciones: Se agregó una referencia a este documento en el cuerpo, según lo solicitado por el OP.


Estoy dando una respuesta como un ingenuo Bayesiano empírico aquí.

Primero, la distribución posterior le permite hacer cálculos que simplemente no puede hacer con un MLE directo. El caso más simple es que el posterior de hoy es el anterior de mañana . La inferencia bayesiana permite naturalmente actualizaciones secuenciales, o más en general en línea o una combinación retrasada de múltiples fuentes de información (incorporar una previa es solo una instancia de libro de texto de dicha combinación). La teoría de la decisión bayesiana con una función de pérdida no trivial es otro ejemplo. No sabría qué hacer de otra manera.

En segundo lugar, con esta respuesta intentaré argumentar que el mantra de que la cuantificación de la incertidumbre es generalmente mejor que ninguna incertidumbre es efectivamente una pregunta empírica, ya que los teoremas (como usted mencionó, y que yo sepa) no ofrecen garantías.

La optimización como modelo de juguete de esfuerzo científico

Un dominio que creo que captura completamente la complejidad del problema es muy práctico, sin sentido, la optimización de una función de recuadro negro . Suponemos que podemos consultar secuencialmente un punto y obtener una observación posiblemente ruidosa , con . Nuestro objetivo es acercarnos lo más posible a con el número mínimo de evaluaciones de funciones. x X y = f ( x ) + ε ε N ( 0 , σ 2 ) x = arg min x f ( x )f:XRDRxXy=F(X)+εεnorte(0 0,σ2)X=argminXF(X)

Una forma particularmente efectiva de proceder, como es de esperar, es construir un modelo predictivo de lo que sucedería si consulto cualquier , y usar esta información para decidir qué hacer a continuación ( local o globalmente). Ver Rios y Sahinidis (2013) para una revisión de los métodos de optimización global sin derivados. Cuando el modelo es lo suficientemente complejo, esto se llama metamodelo o función de sustituto o enfoque de superficie de respuesta . De manera crucial, el modelo podría ser una estimación puntual de (por ejemplo, el ajuste de una función de red de base radial a nuestras observaciones), o podríamos ser bayesianos y de alguna manera obtener una distribución posterior completa sobre f fXXFF (por ejemplo, a través de un proceso gaussiano).

La optimización bayesiana utiliza la posterior sobre (en particular, la media y la varianza posterior condicional conjunta en cualquier punto) para guiar la búsqueda del óptimo (global) a través de alguna heurística basada en principios. La opción clásica es maximizar la mejora esperada sobre el mejor punto actual, pero hay métodos incluso más sofisticados, como minimizar la entropía esperada sobre la ubicación del mínimo (ver también aquí ).F

El resultado empírico aquí es que tener acceso a una posterior, incluso si está parcialmente especificada incorrectamente, generalmente produce mejores resultados que otros métodos. (Hay advertencias y situaciones en las que la optimización bayesiana no es mejor que la búsqueda aleatoria, como en las dimensiones altas). En este artículo , realizamos una evaluación empírica de un método BO novedoso frente a otros algoritmos de optimización, verificando si es conveniente usar BO en la práctica, con resultados prometedores.

Como usted preguntó, esto tiene un costo computacional mucho más alto que otros métodos no bayesianos, y se preguntaba por qué deberíamos ser bayesianos. La suposición aquí es que el costo involucrado en la evaluación de la verdadera (por ejemplo, en un escenario real, un experimento complejo de ingeniería o aprendizaje automático) es mucho mayor que el costo computacional para el análisis bayesiano, por lo que ser bayesiano vale la pena .f

¿Qué podemos aprender de este ejemplo?

Primero, ¿por qué funciona la optimización bayesiana? Supongo que el modelo está equivocado, pero no está tan mal, y como de costumbre, el error depende de para qué sirve su modelo. Por ejemplo, la forma exacta de no es relevante para la optimización, ya que podríamos estar optimizando cualquier transformación monotónica de la misma. Supongo que la naturaleza está llena de tales variaciones. Por lo tanto, la búsqueda que estamos haciendo podría no ser óptima (es decir, estamos arrojando buena información), pero aún mejor que sin información de incertidumbre.F

En segundo lugar, nuestro ejemplo destaca que es posible que la utilidad de ser bayesiano o no dependa del contexto , por ejemplo, el costo relativo y la cantidad de recursos disponibles (computacionales). (Por supuesto, si usted es un Bayesiano incondicional, cree que cada cálculo es inferencia bayesiana bajo alguna aproximación previa y / o aproximación).

Finalmente, la gran pregunta es: ¿por qué los modelos que utilizamos no son tan malos después de todo, en el sentido de que los posteriores siguen siendo útiles y no basura estadística? Si tomamos el teorema de No Free Lunch, aparentemente no deberíamos poder decir mucho, pero afortunadamente no vivimos en un mundo de funciones completamente aleatorias (o elegidas por adversarios ).

Más en general, ya que pones la etiqueta "filosófica" ... Creo que estamos entrando en el ámbito del problema de la inducción, o la efectividad irracional de las matemáticas en las ciencias estadísticas (específicamente, de nuestra intuición matemática y capacidad para especificar modelos) ese trabajo en la práctica), en el sentido de que desde un punto de vista puramente a priori no hay ninguna razón por la cual nuestras conjeturas deberían ser buenas o tener alguna garantía (y seguro que puedes construir contraejemplos matemáticos en los que las cosas salen mal), pero se vuelven a trabajar bien en la práctica.

lacerbi
fuente
2
Impresionante respuesta. Muchas gracias por su contribución. ¿Hay alguna revisión / comparación justa de la optimización bayesiana frente a las técnicas de optimización normal que resalta que la versión bayesiana es empíricamente mejor como usted afirma? (Estoy bastante de acuerdo con su palabra, pero una referencia sería útil)
Guillaume Dehaene
1
¡Gracias! Creo que la llamada numérica probabilística contiene varios argumentos teóricos y empíricos. No conozco un punto de referencia que realmente compare los métodos BO con los métodos estándar, pero [ advertencia de disparo: enchufe descarado ] Actualmente estoy trabajando en algo en este sentido dentro del campo de la neurociencia computacional; Planeo poner algunos de los resultados en arXiv, con suerte en las próximas semanas.
lacerbi
De hecho, al menos su figura 2 tiene una comparación clara. ¿Podría agregar su trabajo a su pregunta principal una vez que está fuera? Siento que sería una valiosa adición.
Guillaume Dehaene
Sí, ese es su método para la cuadratura bayesiana adaptativa, lo cual es una idea genial (en la práctica, su efectividad depende de si la aproximación GP funciona; que a menudo es casi equivalente a decir que tiene una parametrización sensata de su problema). Agregaré el enlace a la respuesta cuando mi trabajo esté disponible, gracias.
lacerbi
1
@IMA: Lo siento, no creo que entienda al 100% tu punto. Estaba tomando la optimización de caja negra como modelo de juguete del esfuerzo científico. Creo que puede asignar muchos pasos y problemas de "ciencia" a este dominio más simple (pero aún increíblemente complejo). No hay necesidad de la suposición del "ruido gaussiano" para mi argumento, fue solo por simplicidad. Los problemas de optimización del mundo real (p. Ej., En ingeniería) pueden estar corrompidos por el ruido no gaussiano, y eso es algo que debe tratarse. Y los procesos gaussianos no necesitan ruido de observación gaussiana (aunque facilita la inferencia).
lacerbi
10

Solo veo esto hoy, pero aun así creo que debería contribuir dado que soy una especie de experto y que al menos dos respuestas (nr 3 y 20 (¡gracias por referirse a mi trabajo, Xi'an!)) Mencionan mi trabajo en SafeBayes - en particular G. y van Ommen, "Inconsistencia de la inferencia bayesiana para modelos lineales mal especificados, y una propuesta para repararlo" (2014). Y también me gustaría agregar algo para comentar 2:

2 dice: (una ventaja de Bayes bajo especificación errónea es ...) "Bueno, los enfoques bayesianos se regularizan. Eso es algo, para ayudar contra el sobreajuste, ya sea que su modelo esté mal especificado o no. Por supuesto, eso solo lleva a la pregunta relacionada sobre argumentos para la inferencia bayesiana contra enfoques clásicos regularizados (lazo, etc.) "

Esto es cierto, pero es crucial agregar que los enfoques bayesianos pueden no regularizarse lo suficiente Si el modelo está equivocado. Este es el punto principal del trabajo con Van Ommen: vemos allí que Bayes estándar se adapta de manera bastante terrible en algún contexto de regresión con modelos incorrectos pero muy útiles. No es tan malo como MLE, pero aún es demasiado para ser útil. Hay toda una línea de trabajo en el aprendizaje automático teórico (frecuentista y teórico de juegos) en el que utilizan métodos similares a Bayes, pero con una 'tasa de aprendizaje' mucho menor, lo que hace que lo anterior sea más importante y que los datos sean menos importantes, por lo tanto, se regulariza más. Estos métodos están diseñados para funcionar bien en las peores situaciones (especificación errónea e incluso peor, datos adversos): el enfoque SafeBayes está diseñado para 'aprender la tasa de aprendizaje óptima' de los datos en sí mismos, y esta tasa de aprendizaje óptima, es decir, la cantidad óptima de regularización,

Relacionado, hay un teorema popular (mencionado por varios arriba) que dice que Bayes tendrá el posterior concentrado en la distribución más cercana en la divergencia KL a la "verdad". Pero esto solo se cumple en condiciones muy estrictas, MUCHO más estrictas que las condiciones necesarias para la convergencia en el caso bien especificado. Si se trata de modelos paramétricos estándar de baja dimensión y los datos se identifican de acuerdo con alguna distribución (no en el modelo), la parte posterior se concentrará en torno al punto del modelo más cercano a la verdad en la divergencia KL. Ahora, si se trata de grandes modelos no paramétricos y el modelo es correcto, entonces (esencialmente) su posterior aún se concentrará en torno a la distribución real dada la información suficiente, siempre y cuando tu prior ponga suficiente masa en pequeñas bolas de KL alrededor de la distribución verdadera. Este es elcondición débil que se necesita para la convergencia en el caso no paramétrico si el modelo es correcto.

Pero si su modelo no es paramétrico pero es incorrecto, entonces la parte posterior puede simplemente no concentrarse alrededor del punto KL más cercano, incluso si su anterior coloca la masa cerca de 1 (!) Allí: su parte posterior puede permanecer confundida para siempre, concentrándose en distribuciones siempre diferentes a medida que pasa el tiempo pero nunca alrededor del mejor. En mis documentos tengo varios ejemplos de esto. Los documentos que muestran convergencia bajo una especificación errónea (por ejemplo, Kleijn y van der Vaart) requieren muchas condiciones adicionales, por ejemplo, el modelo debe ser convexo o el anterior debe obedecer ciertas propiedades (complicadas). Esto es lo que quiero decir con condiciones 'estrictas'.

En la práctica, a menudo tratamos con modelos paramétricos pero de dimensiones muy altas (piense en la regresión de cresta bayesiana, etc.) Luego, si el modelo está equivocado, eventualmente su posterior se concentrará en la mejor distribución de KL en el modelo, pero aún se mantiene una mini versión de la inconsistencia no paramétrica: puede tomar órdenes de magnitud más datos antes de que ocurra la convergencia, nuevamente, mi trabajo con Van Ommen da ejemplos.

El enfoque SafeBayes modifica las bahías estándar de una manera que garantiza la convergencia en modelos no paramétricos en (esencialmente) las mismas condiciones que en el caso bien especificado, es decir, suficiente masa previa cerca de la distribución óptima KL en el modelo (G. y Mehta, 2014 )

Luego está la cuestión de si Bayes incluso tiene justificación bajo una especificación errónea. En mi humilde opinión (y como también mencionaron varias personas arriba), las justificaciones estándar de Bayes (admisibilidad, salvaje, de Finetti, Cox, etc.) no se mantienen aquí (porque si te das cuenta de que tu modelo está mal especificado, tus probabilidades no representan tus verdaderas creencias !) SIN EMBARGO, muchos métodos de Bayes también pueden interpretarse como 'métodos de longitud mínima de descripción (MDL)': MDL es un método teórico de la información que equipara 'aprender de los datos' con 'tratar de comprimir los datos tanto como sea posible'. Esta interpretación de compresión de datos de (algunos) métodos bayesianos sigue siendo válida bajo especificación errónea. Entonces todavía hay algointerpretación subyacente que se mantiene bajo una especificación errónea; sin embargo, hay problemas, como lo muestra mi artículo con van Ommen (y el problema del intervalo de confianza / conjunto creíble mencionado en la publicación original).

Y luego un comentario final sobre la publicación original: mencionas la justificación de 'admisibilidad' de Bayes (volviendo a la clase completa de Wald en los años 1940/50). Si esto es realmente una justificación de Bayes realmente depende mucho de la definición precisa de 'inferencia bayesiana' (que difiere de un investigador a otro ...). La razón es que estos resultados de admisibilidad permiten la posibilidad de que se use un previo que depende de aspectos del problema, como el tamaño de la muestra y la función de pérdida de interés, etc. datos que tienen que procesar los cambios, o si la función de pérdida de interés cambia repentinamente. Por ejemplo, con funciones de pérdida estrictamente convexas, Los estimadores de minimax también son admisibles, ¡aunque no suelen considerarse bayesianos! La razón es que para cada tamaño de muestra fijo, son equivalentes a Bayes con un previo particular, pero el previo es diferente para cada tamaño de muestra.

Espero que esto sea útil!

Peter Grünwald
fuente
2
Bienvenido a CrossValidated y gracias por responder a esta pregunta. Una nota menor: no puede confiar en que las respuestas se ordenen en el mismo orden en que las ve; diferentes personas pueden ordenar en diferentes órdenes (hay una opción de diferentes criterios de clasificación en la parte superior de la respuesta más alta) y dos de esos criterios cambian con el tiempo. Es decir, si se refiere a ellos como "nr 3 y 20", la gente no sabrá a qué respuestas se refiere. [Solo puedo encontrar diez respuestas también.]
Glen_b
1
Gracias por una gran respuesta Peter. Estoy confundido acerca de su comentario de que la inferencia bayesiana en el caso mal especificado requiere suposiciones muy fuertes. ¿A qué supuestos te refieres explícitamente? ¿Estás hablando de la condición que el posterior necesita para converger a una distribución dirac en el mejor valor del parámetro? ¿O está hablando de las condiciones más técnicas sobre la probabilidad que aseguran la normalidad asintótica?
Guillaume Dehaene
Ok, gracias a Glen B (moderador). Lo tendré en cuenta de ahora en adelante.
Peter Grünwald
Guillaume - Estoy actualizando lo anterior para tener en cuenta su comentario
Peter Grünwald
7

Existe el compromiso habitual de la variación de sesgo. La inferencia bayesiana suponiendo que el caso M-cerrado [1,2] tiene una varianza menor [3] pero en el caso de la especificación errónea del modelo, el sesgo crece más rápido [4]. También es posible hacer inferencia bayesiana suponiendo un caso M-abierto [1,2], que tiene una mayor varianza [3] pero en el caso de la especificación errónea del modelo, el sesgo es menor [4]. En algunas de las referencias incluidas en las referencias a continuación, también aparecen algunas dudas sobre el equilibrio de sesgo-varianza entre los casos bayesianos de M-cerrado y M-abierto, pero claramente hay necesidad de más.

[1] Bernardo y Smith (1994). Teoría Bayesiana. John Wiley \ & Sons.

[2] Vehtari y Ojanen (2012). Una encuesta de métodos predictivos bayesianos para la evaluación, selección y comparación de modelos. Encuestas estadísticas, 6: 142-228. http://dx.doi.org/10.1214/12-SS102

[3] Juho Piironen y Aki Vehtari (2017). Comparación de métodos predictivos bayesianos para la selección del modelo. Estadísticas e informática, 27 (3): 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .

[4] Yao, Vehtari, Simpson y Andrew Gelman (2017). Uso del apilamiento para distribuciones predictivas bayesianas promedio. preimpresión de arXiv arXiv: 1704.02030 arxiv.org/abs/1704.02030

Aki Vehtari
fuente
7

Aquí hay algunas otras formas de justificar la inferencia bayesiana en modelos mal especificados.

  • Puede construir un intervalo de confianza en la media posterior, utilizando la fórmula sandwich (de la misma manera que lo haría con el MLE). Por lo tanto, aunque los conjuntos creíbles no tienen cobertura, aún puede producir intervalos de confianza válidos en estimadores puntuales, si eso es lo que le interesa.

  • Puede reescalar la distribución posterior para asegurarse de que los conjuntos creíbles tengan cobertura, que es el enfoque adoptado en:

Müller, Ulrich K. "Riesgo de inferencia bayesiana en modelos mal especificados, y la matriz de covarianza sandwich". Econometrica 81.5 (2013): 1805-1849.

  • p(θ)n(θ)n(θ)dν(θ)+log(ν(θ)p(θ))dν(θ)ν(θ)
Pierrot
fuente
Gracias por el artículo de Muller: creo que responde muchas de las preguntas que tengo.
Guillaume Dehaene
6

pagstrtumi(X)pags(XEl |θ)θ

ϕϕ0 0ϕ0 0pags(XEl |θ,ϕ=ϕ0 0)reθ=0 0pags(ϕ=ϕ0 0)1pags(ϕϕ0 0)=0 0pags(θEl |X,ϕ=ϕ0 0)=0 0

UNA,¬UNApags(θEl |X,ϕ=ϕ0 0)=0 0

pags(siEl |mi)mi=(mi1,mi2,...,minorte)mi, el programa de computadora se bloqueará. Descubrimos esto, empíricamente '', y después de pensarlo un poco, nos dimos cuenta de que no era un motivo de consternación, sino más bien una valiosa herramienta de diagnóstico que nos advierte de casos especiales imprevistos en los que nuestra formulación de un problema puede fallar.

En otras palabras, si la formulación de su problema es inexacta; si su modelo es incorrecto, las estadísticas bayesianas pueden ayudarlo a descubrir que este es el caso y pueden ayudarlo a encontrar qué aspecto del modelo es la fuente del problema.

En la práctica, puede no estar completamente claro qué conocimiento es relevante y si debe incluirse en la derivación. Luego se utilizan varias técnicas de verificación de modelos (los Capítulos 6 y 7 en Gelman et al., 2013, proporcionan una visión general) para descubrir e identificar una formulación de problema inexacta.

Gelman, A., Carlin, JB, Stern, HS, Dunson, DB, Vehtari, A. y Rubin, DB (2013). Análisis de datos bayesianos, tercera edición. Chapman & Hall / CRC.

Jaynes, ET (2003). Teoría de la probabilidad: la lógica de la ciencia. Prensa de la Universidad de Cambridge.

matus
fuente
1
XyoXyo
1
@GuillaumeDehaene Su pregunta era si hay algunos argumentos para usar bayes cuando el modelo está mal especificado. Claramente, el modelo catastróficamente mal especificado está mal especificado. Además, no puede saber a priori si su modelo está catastróficamente mal especificado o simplemente mal especificado. De hecho, Bayes puede decirte exactamente eso, lo que lo hace útil y mi respuesta lo señaló.
matus
1-α
pags(X,θEl |ϕ=ϕ0 0)reθ=kkpags(XEl |ϕ=ϕ0 0)θ=θ0 0pags(θ=θ0 0El |ϕ=ϕ0 0)=0 0pags(X,θ=θkEl |ϕ=ϕ0 0)>0 0
5

El MLE sigue siendo un estimador de un parámetro en un modelo que especifique y suponga que es correcto. Los coeficientes de regresión en un OLS frecuentista se pueden estimar con el MLE y todas las propiedades que desea asociar a él (imparcial, una varianza asintótica específica) aún asumen que su modelo lineal muy específico es correcto.

Voy a llevar esto un paso más allá y decir que cada vez que desee atribuir significado y propiedades a un estimador, debe asumir un modelo. Incluso cuando toma una media de muestra simple, asume que los datos son intercambiables y muchas veces IID.

Ahora, los estimadores bayesianos tienen muchas propiedades deseables que un MLE podría no tener. Por ejemplo, agrupamiento parcial, regularización e interpretabilidad de un posterior que lo hacen deseable en muchas situaciones.

TrynnaDoStat
fuente
No es necesario asumir IID para que un medio le dé significado. Es suficiente asumir la intercambiabilidad (pero, sí, eso sigue siendo una suposición ...)
kjetil b halvorsen
@kjetil b halvorsen Gracias, he editado para mayor claridad.
TrynnaDoStat
4

Recomiendo la filosofía de Gelman y Shalizi y la práctica de las estadísticas bayesianas . Tienen respuestas coherentes, detalladas y prácticas a estas preguntas.

Creemos que la mayor parte de esta opinión recibida de la inferencia bayesiana es incorrecta. Los métodos bayesianos no son más inductivos que cualquier otro modo de inferencia estadística. El análisis de datos bayesianos se entiende mucho mejor desde una perspectiva hipotético-deductiva . Implícito en la mejor práctica bayesiana hay una postura que tiene mucho en común con el enfoque estadístico de error de Mayo (1996), a pesar de la orientación frecuentista de este último. De hecho, partes cruciales del análisis de datos bayesianos, como la verificación de modelos, pueden entenderse como 'sondas de error' en el sentido de Mayo.

Procedemos mediante una combinación de examinar casos concretos de análisis de datos bayesianos en la investigación empírica de ciencias sociales y resultados teóricos sobre la consistencia y la convergencia de la actualización bayesiana. El análisis de datos socio-científicos es especialmente relevante para nuestros propósitos porque existe un acuerdo general de que, en este dominio, todos los modelos en uso son incorrectos, no simplemente falsificables, sino realmente falsos. Con suficientes datos, y a menudo solo una cantidad bastante moderada, cualquier analista podría rechazar cualquier modelo ahora en uso a cualquier nivel de confianza deseado . Sin embargo, el ajuste del modelo es una actividad valiosa y, de hecho, el quid de los análisis de datos. Para comprender por qué esto es así, debemos examinar cómo se construyen, ajustan, usan y verifican los modelos, y los efectos de la especificación errónea en los modelos.

...

Desde nuestro punto de vista, la explicación del último párrafo [de la visión bayesiana estándar] es crucialmente errónea. El proceso de análisis de datos, bayesiano o de otro tipo, no termina con el cálculo de estimaciones de parámetros o distribuciones posteriores. Más bien, el modelo se puede verificar comparando las implicaciones del modelo ajustado con la evidencia empírica.. Uno hace preguntas como si las simulaciones del modelo ajustado se parecen a los datos originales, si el modelo ajustado es consistente con otros datos no utilizados en el ajuste del modelo, y si las variables que el modelo dice son ruido ('términos de error') en De hecho, muestran patrones fácilmente detectables. Las discrepancias entre el modelo y los datos se pueden utilizar para conocer las formas en que el modelo es inadecuado para los fines científicos en cuestión y, por lo tanto, para motivar expansiones y cambios en el modelo (Sección 4.).

Alex Coventry
fuente
2

Xremetro

pags(XEl |re,metro),
metroX
pags(XEl |re)=metropags(XEl |re,metro)pags(metroEl |re)

XmetroXmetro

innisfree
fuente
3
El promedio de modelos no puede salvarnos: sigue siendo una tontería suponer que el verdadero modelo de alguna manera cae dentro del alcance de nuestro modelo más grande. Con la comparación de modelos, podemos determinar cuál de varios modelos da la mejor cuenta de los datos, pero esto simplemente devuelve un modelo incorrecto que es menos incorrecto que los otros modelos.
Guillaume Dehaene
Puede ayudarlo a hacer inferencias / estimaciones sobre una cantidad desconocida que incorpore coherentemente la incertidumbre del modelo. Sin embargo, no puede inventar nuevas hipótesis para ti. Si hubiera una maquinaria estadística que inventara modelos a la luz de los datos, por ejemplo, la ciencia sería mucho más fácil.
innisfree
1

¿Cómo define qué es un modelo "mal especificado"? ¿Esto significa que el modelo ...

  • hace predicciones "malas"?
  • pagsT(X)
  • falta un parámetro?
  • lleva a conclusiones "malas"?

Si piensa en las formas en que un modelo dado podría especificarse erróneamente, esencialmente extraerá información sobre cómo hacer un modelo mejor. ¡Incluya esa información adicional en su modelo!

Si piensa en qué es un "modelo" en el marco bayesiano, siempre puede hacer un modelo que no pueda especificarse erróneamente. Una forma de hacerlo es agregando más parámetros a su modelo actual. Al agregar más parámetros, hace que su modelo sea más flexible y adaptable. Los métodos de Machine Learning aprovechan al máximo esta idea. Esto subyace a cosas como "redes nuerales" y "árboles de regresión". Sin embargo, debe pensar en los antecedentes (similar a la regularización para ML).


modelo 1: Xyo=θ+σmiyo
miyonorte(0 0,1)
modelo 2: Xyo=θ+σmiyowyo

miyonorte(0 0,1)θ

wyonorte(0 0,1)

probabilidadislogica
fuente
XF(X)