Ediciones: He agregado un ejemplo simple: inferencia de la media de la . También he aclarado ligeramente por qué los intervalos creíbles que no coinciden con los intervalos de confianza son malos.
Yo, un bayesiano bastante devoto, estoy en medio de una especie de crisis de fe.
Mi problema es el siguiente. Suponga que quiero analizar algunos datos IID . Lo que haría es:
primero, proponga un modelo condicional:
Luego, elija un previo en :
Finalmente, aplique la regla de Bayes, calcule la parte posterior: (o alguna aproximación a ella si no puede ser cuestionable) y responda todas las preguntas que tenga sobre
Este es un enfoque sensato: si el verdadero modelo de los datos está "dentro" de mi condicional (corresponde a algún valor ), entonces puedo recurrir a la teoría de decisión estadística para decir que mi método es admisible (ver Robert's "La opción bayesiana" para más detalles; "Todas las estadísticas" también da una explicación clara en el capítulo correspondiente).
Sin embargo, como todos saben, asumir que mi modelo es correcto es bastante arrogante: ¿por qué la naturaleza debe caer perfectamente dentro de la caja de los modelos que he considerado? Es mucho más realista suponer que el modelo real de los datos difiere de para todos los valores de . Esto generalmente se llama un modelo "mal especificado".p ( X | θ ) θ
Mi problema es que, en este caso más realista y mal especificado, no tengo ningún buen argumento para ser bayesiano (es decir, calcular la distribución posterior) versus simplemente calcular el Estimador de máxima verosimilitud (MLE):
De hecho, según Kleijn, vd Vaart (2012) , en el caso mal especificado, la distribución posterior:
converge como a una distribución dirac centrada en atheta M L
no tiene la varianza correcta (a menos que dos valores sean iguales) para garantizar que los intervalos creíbles de los intervalos de confianza coincidentes posteriores para . (Tenga en cuenta que, si bien los intervalos de confianza son obviamente algo que a los bayesianos no les importa en exceso, esto cualitativamente significa que la distribución posterior es intrínsecamente incorrecta, ya que implica que sus intervalos creíbles no tienen una cobertura correcta)
Por lo tanto, estamos pagando una prima computacional (la inferencia bayesiana, en general, es más costosa que MLE) por no tener propiedades adicionales
Por lo tanto, finalmente, mi pregunta: ¿hay algún argumento, ya sea teórico o empírico, para usar la inferencia bayesiana sobre la alternativa MLE más simple cuando el modelo está mal especificado?
(Como sé que mis preguntas a menudo no son claras, avíseme si no comprende algo: intentaré reformularlo)
Editar: consideremos un ejemplo simple: inferir la media de bajo un modelo gaussiano (con varianza conocida para simplificar aún más). Consideramos un previo gaussiano: denotamos la media anterior, la varianza inversa del previo. Sea el medio empírico de . Finalmente, tenga en cuenta: . σ μ 0 β 0 ˉ X X i μ = ( β 0 μ 0 + n
La distribución posterior es:
En el caso correctamente especificado (cuando realmente tiene una distribución gaussiana), este posterior tiene las siguientes propiedades agradables
Si los se generan a partir de un modelo jerárquico en el que su media compartida se selecciona de la distribución anterior, entonces los intervalos creíbles posteriores tienen una cobertura exacta. Condicional a los datos, la probabilidad de que esté en cualquier intervalo es igual a la probabilidad de que la parte posterior se atribuya a este intervalo θ
Incluso si lo anterior no es correcto, los intervalos creíbles tienen una cobertura correcta en el límite en el que la influencia previa en el posterior desaparece
el posterior además tiene buenas propiedades frecuentistas: se garantiza que cualquier estimador bayesiano construido a partir del posterior es admisible, la media posterior es un estimador eficiente (en el sentido de Cramer-Rao) de la media, los intervalos creíbles son, asintóticamente, intervalos de confianza.
En el caso mal especificado, la mayoría de estas propiedades no están garantizadas por la teoría. Para arreglar ideas, supongamos que el modelo real para es que, en cambio, son distribuciones de Estudiantes. La única propiedad que podemos garantizar (Kleijn et al) es que la distribución posterior se concentra en la media real de en el límite . En general, todas las propiedades de cobertura desaparecerían. Peor aún, en general, podemos garantizar que, en ese límite, las propiedades de cobertura son fundamentalmente incorrectas: la distribución posterior atribuye la probabilidad incorrecta a varias regiones del espacio.X i n → ∞
fuente
Respuestas:
Considero el enfoque bayesiano cuando mi conjunto de datos no es todo lo que se sabe sobre el tema, y quiero incorporar de alguna manera ese conocimiento exógeno en mi pronóstico.
Por ejemplo, mi cliente quiere un pronóstico de los incumplimientos de préstamos en su cartera. Tienen 100 préstamos con algunos años de datos históricos trimestrales. Hubo algunos casos de morosidad (pago atrasado) y solo un par de incumplimientos. Si trato de estimar el modelo de supervivencia en este conjunto de datos, habrá muy pocos datos para estimar y demasiada incertidumbre para pronosticar.
Por otro lado, los gerentes de cartera son personas con experiencia, algunos de ellos pueden haber pasado décadas administrando relaciones con prestatarios. Tienen ideas sobre cómo deberían ser las tasas de incumplimiento. Por lo tanto, son capaces de encontrar antecedentes razonables. Tenga en cuenta, no los priores que tienen buenas propiedades matemáticas y se ven intelectualmente atractivo para mí . Charlaré con ellos y extraeré sus experiencias y conocimientos en forma de esos antecedentes.
Ahora, el marco bayesiano me proporcionará mecanismos para unir el conocimiento exógeno en forma de antecedentes con los datos y, en mi opinión, obtener el posterior que sea superior al juicio cualitativo puro y al pronóstico impulsado por datos puros. Esto no es una filosofía y no soy bayesiano. Solo estoy usando las herramientas bayesianas para incorporar constantemente el conocimiento experto en la estimación basada en datos.
fuente
Una pregunta muy interesante ... que puede no tener una respuesta (¡pero eso no lo hace menos interesante!)
Algunas reflexiones (¡y muchos enlaces a las entradas de mi blog!) Sobre ese meme de que todos los modelos están equivocados :
fuente
Ediciones: Se agregó una referencia a este documento en el cuerpo, según lo solicitado por el OP.
Estoy dando una respuesta como un ingenuo Bayesiano empírico aquí.
Primero, la distribución posterior le permite hacer cálculos que simplemente no puede hacer con un MLE directo. El caso más simple es que el posterior de hoy es el anterior de mañana . La inferencia bayesiana permite naturalmente actualizaciones secuenciales, o más en general en línea o una combinación retrasada de múltiples fuentes de información (incorporar una previa es solo una instancia de libro de texto de dicha combinación). La teoría de la decisión bayesiana con una función de pérdida no trivial es otro ejemplo. No sabría qué hacer de otra manera.
En segundo lugar, con esta respuesta intentaré argumentar que el mantra de que la cuantificación de la incertidumbre es generalmente mejor que ninguna incertidumbre es efectivamente una pregunta empírica, ya que los teoremas (como usted mencionó, y que yo sepa) no ofrecen garantías.
La optimización como modelo de juguete de esfuerzo científico
Un dominio que creo que captura completamente la complejidad del problema es muy práctico, sin sentido, la optimización de una función de recuadro negro . Suponemos que podemos consultar secuencialmente un punto y obtener una observación posiblemente ruidosa , con . Nuestro objetivo es acercarnos lo más posible a con el número mínimo de evaluaciones de funciones. x ∈ X y = f ( x ) + ε ε ∼ N ( 0 , σ 2 ) x ∗ = arg min x f ( x )F:X⊂RD→R x∈X y=f(x)+ε ε∼N(0,σ2) x∗=argminxf(x)
Una forma particularmente efectiva de proceder, como es de esperar, es construir un modelo predictivo de lo que sucedería si consulto cualquier , y usar esta información para decidir qué hacer a continuación ( local o globalmente). Ver Rios y Sahinidis (2013) para una revisión de los métodos de optimización global sin derivados. Cuando el modelo es lo suficientemente complejo, esto se llama metamodelo o función de sustituto o enfoque de superficie de respuesta . De manera crucial, el modelo podría ser una estimación puntual de (por ejemplo, el ajuste de una función de red de base radial a nuestras observaciones), o podríamos ser bayesianos y de alguna manera obtener una distribución posterior completa sobre f fx′∈X f f (por ejemplo, a través de un proceso gaussiano).
La optimización bayesiana utiliza la posterior sobre (en particular, la media y la varianza posterior condicional conjunta en cualquier punto) para guiar la búsqueda del óptimo (global) a través de alguna heurística basada en principios. La opción clásica es maximizar la mejora esperada sobre el mejor punto actual, pero hay métodos incluso más sofisticados, como minimizar la entropía esperada sobre la ubicación del mínimo (ver también aquí ).f
El resultado empírico aquí es que tener acceso a una posterior, incluso si está parcialmente especificada incorrectamente, generalmente produce mejores resultados que otros métodos. (Hay advertencias y situaciones en las que la optimización bayesiana no es mejor que la búsqueda aleatoria, como en las dimensiones altas). En este artículo , realizamos una evaluación empírica de un método BO novedoso frente a otros algoritmos de optimización, verificando si es conveniente usar BO en la práctica, con resultados prometedores.
Como usted preguntó, esto tiene un costo computacional mucho más alto que otros métodos no bayesianos, y se preguntaba por qué deberíamos ser bayesianos. La suposición aquí es que el costo involucrado en la evaluación de la verdadera (por ejemplo, en un escenario real, un experimento complejo de ingeniería o aprendizaje automático) es mucho mayor que el costo computacional para el análisis bayesiano, por lo que ser bayesiano vale la pena .f
¿Qué podemos aprender de este ejemplo?
Primero, ¿por qué funciona la optimización bayesiana? Supongo que el modelo está equivocado, pero no está tan mal, y como de costumbre, el error depende de para qué sirve su modelo. Por ejemplo, la forma exacta de no es relevante para la optimización, ya que podríamos estar optimizando cualquier transformación monotónica de la misma. Supongo que la naturaleza está llena de tales variaciones. Por lo tanto, la búsqueda que estamos haciendo podría no ser óptima (es decir, estamos arrojando buena información), pero aún mejor que sin información de incertidumbre.f
En segundo lugar, nuestro ejemplo destaca que es posible que la utilidad de ser bayesiano o no dependa del contexto , por ejemplo, el costo relativo y la cantidad de recursos disponibles (computacionales). (Por supuesto, si usted es un Bayesiano incondicional, cree que cada cálculo es inferencia bayesiana bajo alguna aproximación previa y / o aproximación).
Finalmente, la gran pregunta es: ¿por qué los modelos que utilizamos no son tan malos después de todo, en el sentido de que los posteriores siguen siendo útiles y no basura estadística? Si tomamos el teorema de No Free Lunch, aparentemente no deberíamos poder decir mucho, pero afortunadamente no vivimos en un mundo de funciones completamente aleatorias (o elegidas por adversarios ).
Más en general, ya que pones la etiqueta "filosófica" ... Creo que estamos entrando en el ámbito del problema de la inducción, o la efectividad irracional de las matemáticas en las ciencias estadísticas (específicamente, de nuestra intuición matemática y capacidad para especificar modelos) ese trabajo en la práctica), en el sentido de que desde un punto de vista puramente a priori no hay ninguna razón por la cual nuestras conjeturas deberían ser buenas o tener alguna garantía (y seguro que puedes construir contraejemplos matemáticos en los que las cosas salen mal), pero se vuelven a trabajar bien en la práctica.
fuente
Solo veo esto hoy, pero aun así creo que debería contribuir dado que soy una especie de experto y que al menos dos respuestas (nr 3 y 20 (¡gracias por referirse a mi trabajo, Xi'an!)) Mencionan mi trabajo en SafeBayes - en particular G. y van Ommen, "Inconsistencia de la inferencia bayesiana para modelos lineales mal especificados, y una propuesta para repararlo" (2014). Y también me gustaría agregar algo para comentar 2:
2 dice: (una ventaja de Bayes bajo especificación errónea es ...) "Bueno, los enfoques bayesianos se regularizan. Eso es algo, para ayudar contra el sobreajuste, ya sea que su modelo esté mal especificado o no. Por supuesto, eso solo lleva a la pregunta relacionada sobre argumentos para la inferencia bayesiana contra enfoques clásicos regularizados (lazo, etc.) "
Esto es cierto, pero es crucial agregar que los enfoques bayesianos pueden no regularizarse lo suficiente Si el modelo está equivocado. Este es el punto principal del trabajo con Van Ommen: vemos allí que Bayes estándar se adapta de manera bastante terrible en algún contexto de regresión con modelos incorrectos pero muy útiles. No es tan malo como MLE, pero aún es demasiado para ser útil. Hay toda una línea de trabajo en el aprendizaje automático teórico (frecuentista y teórico de juegos) en el que utilizan métodos similares a Bayes, pero con una 'tasa de aprendizaje' mucho menor, lo que hace que lo anterior sea más importante y que los datos sean menos importantes, por lo tanto, se regulariza más. Estos métodos están diseñados para funcionar bien en las peores situaciones (especificación errónea e incluso peor, datos adversos): el enfoque SafeBayes está diseñado para 'aprender la tasa de aprendizaje óptima' de los datos en sí mismos, y esta tasa de aprendizaje óptima, es decir, la cantidad óptima de regularización,
Relacionado, hay un teorema popular (mencionado por varios arriba) que dice que Bayes tendrá el posterior concentrado en la distribución más cercana en la divergencia KL a la "verdad". Pero esto solo se cumple en condiciones muy estrictas, MUCHO más estrictas que las condiciones necesarias para la convergencia en el caso bien especificado. Si se trata de modelos paramétricos estándar de baja dimensión y los datos se identifican de acuerdo con alguna distribución (no en el modelo), la parte posterior se concentrará en torno al punto del modelo más cercano a la verdad en la divergencia KL. Ahora, si se trata de grandes modelos no paramétricos y el modelo es correcto, entonces (esencialmente) su posterior aún se concentrará en torno a la distribución real dada la información suficiente, siempre y cuando tu prior ponga suficiente masa en pequeñas bolas de KL alrededor de la distribución verdadera. Este es elcondición débil que se necesita para la convergencia en el caso no paramétrico si el modelo es correcto.
Pero si su modelo no es paramétrico pero es incorrecto, entonces la parte posterior puede simplemente no concentrarse alrededor del punto KL más cercano, incluso si su anterior coloca la masa cerca de 1 (!) Allí: su parte posterior puede permanecer confundida para siempre, concentrándose en distribuciones siempre diferentes a medida que pasa el tiempo pero nunca alrededor del mejor. En mis documentos tengo varios ejemplos de esto. Los documentos que muestran convergencia bajo una especificación errónea (por ejemplo, Kleijn y van der Vaart) requieren muchas condiciones adicionales, por ejemplo, el modelo debe ser convexo o el anterior debe obedecer ciertas propiedades (complicadas). Esto es lo que quiero decir con condiciones 'estrictas'.
En la práctica, a menudo tratamos con modelos paramétricos pero de dimensiones muy altas (piense en la regresión de cresta bayesiana, etc.) Luego, si el modelo está equivocado, eventualmente su posterior se concentrará en la mejor distribución de KL en el modelo, pero aún se mantiene una mini versión de la inconsistencia no paramétrica: puede tomar órdenes de magnitud más datos antes de que ocurra la convergencia, nuevamente, mi trabajo con Van Ommen da ejemplos.
El enfoque SafeBayes modifica las bahías estándar de una manera que garantiza la convergencia en modelos no paramétricos en (esencialmente) las mismas condiciones que en el caso bien especificado, es decir, suficiente masa previa cerca de la distribución óptima KL en el modelo (G. y Mehta, 2014 )
Luego está la cuestión de si Bayes incluso tiene justificación bajo una especificación errónea. En mi humilde opinión (y como también mencionaron varias personas arriba), las justificaciones estándar de Bayes (admisibilidad, salvaje, de Finetti, Cox, etc.) no se mantienen aquí (porque si te das cuenta de que tu modelo está mal especificado, tus probabilidades no representan tus verdaderas creencias !) SIN EMBARGO, muchos métodos de Bayes también pueden interpretarse como 'métodos de longitud mínima de descripción (MDL)': MDL es un método teórico de la información que equipara 'aprender de los datos' con 'tratar de comprimir los datos tanto como sea posible'. Esta interpretación de compresión de datos de (algunos) métodos bayesianos sigue siendo válida bajo especificación errónea. Entonces todavía hay algointerpretación subyacente que se mantiene bajo una especificación errónea; sin embargo, hay problemas, como lo muestra mi artículo con van Ommen (y el problema del intervalo de confianza / conjunto creíble mencionado en la publicación original).
Y luego un comentario final sobre la publicación original: mencionas la justificación de 'admisibilidad' de Bayes (volviendo a la clase completa de Wald en los años 1940/50). Si esto es realmente una justificación de Bayes realmente depende mucho de la definición precisa de 'inferencia bayesiana' (que difiere de un investigador a otro ...). La razón es que estos resultados de admisibilidad permiten la posibilidad de que se use un previo que depende de aspectos del problema, como el tamaño de la muestra y la función de pérdida de interés, etc. datos que tienen que procesar los cambios, o si la función de pérdida de interés cambia repentinamente. Por ejemplo, con funciones de pérdida estrictamente convexas, Los estimadores de minimax también son admisibles, ¡aunque no suelen considerarse bayesianos! La razón es que para cada tamaño de muestra fijo, son equivalentes a Bayes con un previo particular, pero el previo es diferente para cada tamaño de muestra.
Espero que esto sea útil!
fuente
Existe el compromiso habitual de la variación de sesgo. La inferencia bayesiana suponiendo que el caso M-cerrado [1,2] tiene una varianza menor [3] pero en el caso de la especificación errónea del modelo, el sesgo crece más rápido [4]. También es posible hacer inferencia bayesiana suponiendo un caso M-abierto [1,2], que tiene una mayor varianza [3] pero en el caso de la especificación errónea del modelo, el sesgo es menor [4]. En algunas de las referencias incluidas en las referencias a continuación, también aparecen algunas dudas sobre el equilibrio de sesgo-varianza entre los casos bayesianos de M-cerrado y M-abierto, pero claramente hay necesidad de más.
[1] Bernardo y Smith (1994). Teoría Bayesiana. John Wiley \ & Sons.
[2] Vehtari y Ojanen (2012). Una encuesta de métodos predictivos bayesianos para la evaluación, selección y comparación de modelos. Encuestas estadísticas, 6: 142-228. http://dx.doi.org/10.1214/12-SS102
[3] Juho Piironen y Aki Vehtari (2017). Comparación de métodos predictivos bayesianos para la selección del modelo. Estadísticas e informática, 27 (3): 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .
[4] Yao, Vehtari, Simpson y Andrew Gelman (2017). Uso del apilamiento para distribuciones predictivas bayesianas promedio. preimpresión de arXiv arXiv: 1704.02030 arxiv.org/abs/1704.02030
fuente
Aquí hay algunas otras formas de justificar la inferencia bayesiana en modelos mal especificados.
Puede construir un intervalo de confianza en la media posterior, utilizando la fórmula sandwich (de la misma manera que lo haría con el MLE). Por lo tanto, aunque los conjuntos creíbles no tienen cobertura, aún puede producir intervalos de confianza válidos en estimadores puntuales, si eso es lo que le interesa.
Puede reescalar la distribución posterior para asegurarse de que los conjuntos creíbles tengan cobertura, que es el enfoque adoptado en:
Müller, Ulrich K. "Riesgo de inferencia bayesiana en modelos mal especificados, y la matriz de covarianza sandwich". Econometrica 81.5 (2013): 1805-1849.
fuente
En otras palabras, si la formulación de su problema es inexacta; si su modelo es incorrecto, las estadísticas bayesianas pueden ayudarlo a descubrir que este es el caso y pueden ayudarlo a encontrar qué aspecto del modelo es la fuente del problema.
En la práctica, puede no estar completamente claro qué conocimiento es relevante y si debe incluirse en la derivación. Luego se utilizan varias técnicas de verificación de modelos (los Capítulos 6 y 7 en Gelman et al., 2013, proporcionan una visión general) para descubrir e identificar una formulación de problema inexacta.
Gelman, A., Carlin, JB, Stern, HS, Dunson, DB, Vehtari, A. y Rubin, DB (2013). Análisis de datos bayesianos, tercera edición. Chapman & Hall / CRC.
Jaynes, ET (2003). Teoría de la probabilidad: la lógica de la ciencia. Prensa de la Universidad de Cambridge.
fuente
El MLE sigue siendo un estimador de un parámetro en un modelo que especifique y suponga que es correcto. Los coeficientes de regresión en un OLS frecuentista se pueden estimar con el MLE y todas las propiedades que desea asociar a él (imparcial, una varianza asintótica específica) aún asumen que su modelo lineal muy específico es correcto.
Voy a llevar esto un paso más allá y decir que cada vez que desee atribuir significado y propiedades a un estimador, debe asumir un modelo. Incluso cuando toma una media de muestra simple, asume que los datos son intercambiables y muchas veces IID.
Ahora, los estimadores bayesianos tienen muchas propiedades deseables que un MLE podría no tener. Por ejemplo, agrupamiento parcial, regularización e interpretabilidad de un posterior que lo hacen deseable en muchas situaciones.
fuente
Recomiendo la filosofía de Gelman y Shalizi y la práctica de las estadísticas bayesianas . Tienen respuestas coherentes, detalladas y prácticas a estas preguntas.
fuente
fuente
¿Cómo define qué es un modelo "mal especificado"? ¿Esto significa que el modelo ...
Si piensa en las formas en que un modelo dado podría especificarse erróneamente, esencialmente extraerá información sobre cómo hacer un modelo mejor. ¡Incluya esa información adicional en su modelo!
Si piensa en qué es un "modelo" en el marco bayesiano, siempre puede hacer un modelo que no pueda especificarse erróneamente. Una forma de hacerlo es agregando más parámetros a su modelo actual. Al agregar más parámetros, hace que su modelo sea más flexible y adaptable. Los métodos de Machine Learning aprovechan al máximo esta idea. Esto subyace a cosas como "redes nuerales" y "árboles de regresión". Sin embargo, debe pensar en los antecedentes (similar a la regularización para ML).
fuente