Evitar que falle el muestreo de importancia suavizado de Pareto (PSIS-LOO)

10

Recientemente comencé a usar la validación cruzada de muestreo de importancia suavizada Pareto (PSIS-LOO), descrita en estos documentos:

  • Vehtari, A. y Gelman, A. (2015). Pareto suavizó el muestreo de importancia. preimpresión arXiv ( enlace ).
  • Vehtari, A., Gelman, A. y Gabry, J. (2016). Evaluación práctica del modelo bayesiano utilizando validación cruzada de dejar uno fuera y WAIC. preimpresión arXiv ( enlace )

Esto representa un enfoque muy atractivo para la evaluación de modelos fuera de muestra, ya que permite realizar LOO-CV con una sola ejecución de MCMC, y supuestamente es mejor que los criterios de información existentes como WAIC.

PSIS-LOO tiene un diagnóstico que le indica si la aproximación es confiable, dada por los exponentes estimados de las distribuciones de Pareto ajustadas a las colas de las distribuciones empíricas de pesos de importancia (un peso por punto de datos). En resumen, si se estima un peso , pueden suceder cosas malas.k^ik^i0.7

Lamentablemente, descubrí que en mi aplicación de este método a mi problema, para la mayoría de los modelos de interés, encuentro que una gran fracción de k^i0.7 . Como era de esperar, algunos de los log-verosimilitudes de LOO fueron evidentemente sin sentido (en comparación con otros conjuntos de datos). Como doble verificación, realicé una validación cruzada tradicional (y que lleva mucho tiempo) 10 veces, y descubrí que, de hecho, en el caso anterior, PSIS-LOO estaba dando resultados terriblemente incorrectos (por el lado positivo, los resultados estaban muy de acuerdo con 10 CV doble para los modelos en los que todos k^i0.7 ). Para el registro, estoy usando la implementación MATLAB de PSIS-LOO por Aki Vehtari.

Quizás soy muy desafortunado porque mi primer problema actual en el que aplico este método es "difícil" para PSIS-LOO, pero sospecho que este caso podría ser relativamente común. Para casos como el mío, el documento de Vehtary, Gelman & Gabry simplemente dice:

Incluso si la estimación de PSIS tiene una varianza finita, cuando , el usuario debe considerar tomar muestras directamente de para la problemática , use -fold cross- validación, o use un modelo más robusto.k^>0.7p(θs|yi)ik

Estas son soluciones obvias pero no realmente ideales, ya que requieren mucho tiempo o requieren violines adicionales (aprecio que MCMC y la evaluación del modelo tengan que ver con los violines, pero cuanto menos, mejor).

¿Existe algún método general que podamos aplicar de antemano para tratar de evitar que PSIS-LOO falle? Tengo algunas ideas tentativas, pero me pregunto si ya hay una solución empírica que la gente ha estado adoptando.

lacerbi
fuente

Respuestas:

8

Para el registro, publiqué una pregunta similar a la lista de correo de usuarios de Stan , que puede encontrar aquí . Me respondió uno de los autores del artículo original de PSIS-LOO y otros colaboradores de Stan. Lo que sigue es mi resumen personal.

La respuesta corta es que no hay métodos generales conocidos para evitar que PSIS-LOO falle. Si PSIS-LOO falla, generalmente se debe a que el modelo tiene problemas , y la reparación se deja necesariamente al usuario.

Específicamente, la razón por la cual PSIS-LOO puede fallar generalmente se debe a que una o más distribuciones de LOO se desplazan y / o son más amplias que la posterior completa, probablemente debido a observaciones influyentes, y la distribución de muestreo de importancia colapsa en uno o pocos puntos.

Estaba pensando que podría intentar adoptar algún tipo de enfoque paralelo de temple posterior para resolver este problema. La idea no es necesariamente incorrecta, pero se me señaló que:

  • El temple posterior de los libros de texto aún requeriría mucho trabajo de caso por caso para encontrar los niveles de temperatura correctos, ya que no hay una forma obvia ni conocida de hacerlo (por cierto, por esta razón Stan no incluye el temple paralelo);
  • si usa más de dos niveles de temperatura (ya que puede ser necesario tener un enfoque robusto), el costo computacional final se aproxima al de la validación cruzada K-fold, o de ejecutar MCMC en las distribuciones problemáticas de LOO.

En resumen, si PSIS-LOO falla, parece difícil obtener un método que sea tan robusto y general como otros parches simples; Es por eso que Vehtari, Gelman & Gabry sugirieron esos métodos según la cita que publiqué en mi pregunta original.

lacerbi
fuente