Bayesiano pensando en sobreajustar

20

Dediqué mucho tiempo al desarrollo de métodos y software para validar modelos predictivos en el dominio estadístico frecuentista tradicional. Al poner en práctica más ideas bayesianas y enseñar, veo algunas diferencias clave que aceptar. Primero, el modelo predictivo bayesiano le pide al analista que piense detenidamente sobre las distribuciones anteriores que pueden personalizarse para las características candidatas, y estas anteriores atraerán el modelo hacia ellas (es decir, lograr la reducción / penalización / regularización con diferentes cantidades de penalización para diferentes características predictivas ) En segundo lugar, la forma bayesiana "real" no da como resultado un solo modelo, sino que se obtiene una distribución posterior completa para una predicción.

Con esas características bayesianas en mente, ¿qué significa el sobreajuste? ¿Deberíamos evaluarlo? ¿Si es así, cómo? ¿Cómo sabemos cuándo un modelo bayesiano es confiable para uso en el campo? ¿O es ese un punto discutible ya que la parte posterior llevará todas las incertidumbres de precaución cuando usamos el modelo que desarrollamos para la predicción?

¿Cómo cambiaría el pensamiento si obligáramos a que el modelo bayesiano se destilara a un solo número, por ejemplo, riesgo medio / modo / mediana posterior?

Veo algunos pensamientos relacionados aquí . Una discusión paralela se puede encontrar aquí .

Pregunta de seguimiento : si somos completamente bayesianos y pasamos algún tiempo pensando en los antecedentes antes de ver los datos, y ajustamos un modelo donde la probabilidad de los datos se especificó adecuadamente, ¿estamos obligados a estar satisfechos con nuestro modelo con respecto al sobreajuste? ? ¿O tenemos que hacer lo que hacemos en el mundo frecuentista donde un sujeto elegido al azar puede predecirse en promedio, pero si elegimos un sujeto que tenga una predicción muy baja o uno que tenga un valor predicho muy alto habrá regresión? a la media?

Frank Harrell
fuente
1
Andrew Gelman tiene un artículo de blog muy relevante en andrewgelman.com/2017/04/12/bayesian-posteriors-calibrated
Frank Harrell

Respuestas:

6

Podría comenzar diciendo que un modelo bayesiano no puede sobreajustar sistemáticamente (o subadaptar) los datos que se extraen de la distribución predictiva previa, que es la base de un procedimiento para validar que el software bayesiano funciona correctamente antes de que se aplique a los datos recopilados del mundo.

Pero puede sobreajustar un único conjunto de datos extraído de la distribución predictiva anterior o un único conjunto de datos recopilado del mundo en el sentido de que las diversas medidas predictivas aplicadas a los datos que usted condicionó se ven mejor que esas mismas medidas predictivas aplicadas a datos futuros generado por el mismo proceso. El capítulo 6 del libro bayesiano de Richard McElreath está dedicado al sobreajuste.

La gravedad y la frecuencia del sobreajuste pueden verse disminuidas por los buenos antecedentes, particularmente aquellos que son informativos sobre la escala de un efecto. Al poner una probabilidad previa que se desvanece en valores inverosímilmente grandes, desalienta la distribución posterior de que se excite demasiado por algún aspecto idiosincrásico de los datos que condiciona que puede sugerir un efecto inverosímilmente grande.

Las mejores formas de detectar el sobreajuste incluyen la validación cruzada de dejar uno fuera, que puede aproximarse a partir de una distribución posterior que en realidad no deja ninguna observación fuera del conjunto de acondicionamiento. Hay una suposición de que ninguna "observación" individual [*] que usted condiciona tiene un efecto excesivamente grande en la distribución posterior, pero esa suposición es verificable al evaluar el tamaño de la estimación del parámetro de forma en una distribución de Pareto generalizada que es ajustarse a los pesos de muestreo de importancia (que se derivan de la probabilidad logarítmica de una observación evaluada en cada sorteo de la distribución posterior). Si se cumple este supuesto, puede obtener medidas predictivas para cada observación que son como si esa observación se hubiera omitido, la posterior se había extraído de la condición de las observaciones restantes, y la distribución predictiva posterior se había construido para la observación omitida. Si sus predicciones de observaciones omitidas sufren, entonces su modelo estaba sobreajustado para empezar. Estas ideas se implementan en el paquete de loo para R, que incluye citas como aquí y allá .

En cuanto a la destilación a un solo número, me gusta calcular la proporción de observaciones que caen dentro del 50% de los intervalos predictivos. En la medida en que esta proporción sea mayor a la mitad, el modelo está sobreajustado, aunque necesita más que un puñado de observaciones para reducir el ruido en la función del indicador de inclusión. Para comparar diferentes modelos (que pueden sobreajustar), la densidad predictiva logarítmica esperada (que se calcula mediante la loofunción en el loopaquete) es una buena medida (propuesta por IJ Good) porque tiene en cuenta la posibilidad de que un modelo más flexible pueda ajustarse mejor a los datos disponibles que un modelo menos flexible, pero se espera que prediga peor los datos futuros. Pero estas ideas pueden aplicarse a la expectativa de cualquier medida predictiva (que puede ser más intuitiva para los profesionales); vea la E_loofunción en el paquete loo .

[*] Tienes que elegir qué constituye una observación en un modelo jerárquico. Por ejemplo, ¿está interesado en predecir un nuevo paciente o un nuevo punto de tiempo para un paciente existente? Puede hacerlo de cualquier manera, pero la primera requiere que (re) escriba la función de probabilidad para integrar los parámetros específicos del paciente.

Ben Goodrich
fuente
2
Muy informativo Ben. Muchas gracias por tomarse el tiempo para responder en detalle. Para responder a su pregunta sobre el alcance, me refiero a nuevos pacientes. Me queda una pregunta filosófica general que he agregado al final de la pregunta original.
Frank Harrell
2
Tiendo a pensar que los controles como estos reflejan aspectos de nuestras creencias anteriores que no creamos o no pudimos incorporar a las distribuciones anteriores que utilizamos. Por ejemplo, en principio, debe especificar un PDF anterior conjunto sobre todos los parámetros, pero casi siempre se supone que esto es independiente de eso, a priori , no porque realmente crea que son independientes, sino simplemente porque especifica La estructura de dependencia multivariante es muy difícil. Las funciones multivariadas, como las predicciones, pueden ayudarlo a decirle después del hecho, si las entradas fueron conjuntamente sensibles.
Ben Goodrich
Eso tiene mucho sentido y es muy perspicaz. Todavía me queda un poco de dilema sobre la evaluación de la precisión predictiva para sujetos "extremos", es decir, aquellos con valores pronosticados muy bajos o muy altos. [Y para Bayes, que predijo los valores. ¿Son aquellos sujetos con una distribución posterior desplazada o aquellos con una media posterior baja / alta?]
Frank Harrell
1
Otro pensamiento sobre esto: parece que en muchas situaciones, los practicantes tienen creencias bastante coherentes y no controvertidas sobre el denominador de la regla de Bayes. Por ejemplo, si alguien tiene este o aquel cáncer, ¿cuál es su distribución del tiempo de supervivencia sin condicionarse por nada más? Pero es más difícil y más controvertido especificar el numerador de la Regla de Bayes de modo que si integra todos los parámetros, le queda lo que cree que es el denominador. La verificación predictiva (tanto anterior como posterior) es una forma de alinear el numerador con el denominador de la regla de Bayes.
Ben Goodrich
1

El sobreajuste significa que el modelo funciona bien en el conjunto de entrenamiento pero funciona mal en el conjunto de prueba. En mi humilde opinión, proviene de dos fuentes: los datos y el modelo que utilizamos (o nuestra subjetividad).

k

Como resultado, si somos frecuentistas, la fuente de sobreajuste proviene de MLE. Si somos bayesianos, entonces esto proviene de la elección (subjetiva) de la distribución previa (y, por supuesto, la elección de la probabilidad). Entonces, incluso si usa distribución posterior / media / mediana, ya se ha sobreajustado desde el principio y este sobreajuste se lleva a cabo. La elección adecuada de la distribución previa y la probabilidad ayudarán, pero siguen siendo los modelos, nunca se puede evitar el sobreajuste por completo.

SiXUlm
fuente
Ignorando la probabilidad de los datos, que es común para los enfoques frecuentistas y bayesianos, la idea de que el sobreajuste proviene de la elección de lo anterior es perspicaz. Eso implica que no hay forma de verificar el sobreajuste, porque no hay forma ni la necesidad de verificar el previo si hemos hecho todos nuestros datos previos pensando en el previo de antemano. Pero aún me queda la sensación de que las predicciones extremas mostrarán un sobreajuste (regresión a la media). Lo anterior se trata de parámetros, no de extremos en los datos.
Frank Harrell