¿Se han realizado estudios a gran escala de métodos MCMC que comparen el rendimiento de varios algoritmos diferentes en un conjunto de densidades de prueba? Estoy pensando en algo equivalente al artículo de Rios y Sahinidis (2013), que es una comparación exhaustiva de una gran cantidad de optimizadores de caja negra sin derivados en varias clases de funciones de prueba.
Para MCMC, el rendimiento puede estimarse en, por ejemplo, el número efectivo de muestras (ESS) por evaluación de densidad, o alguna otra métrica apropiada.
Algunos comentarios:
Aprecio que el rendimiento dependerá en gran medida de los detalles del pdf objetivo, pero un argumento similar (posiblemente no idéntico) es válido para la optimización y, sin embargo, hay una gran cantidad de funciones de referencia, suites, concursos, documentos, etc. que se ocupan de la optimización de la evaluación comparativa algoritmos
Además, es cierto que MCMC difiere de la optimización en que comparativamente se necesita mucho más cuidado y ajuste por parte del usuario. Sin embargo, ahora hay varios métodos MCMC que requieren poca o ninguna sintonización: métodos que se adaptan en la fase de quemado, durante el muestreo, o métodos multiestado (también llamados conjuntos ) (como Emcee ) que desarrollan múltiples cadenas de interacción y uso información de otras cadenas para guiar el muestreo.
Estoy particularmente interesado en la comparación entre los métodos estándar y multiestado (también conocido como conjunto). Para la definición de multiestado, consulte la Sección 30.6 del libro de MacKay :
En un método multiestado, se mantienen múltiples vectores de parámetros ; evolucionan individualmente bajo movimientos como Metropolis y Gibbs; También hay interacciones entre los vectores.
- Esta pregunta se originó a partir de aquí .
Actualizar
- Para una versión interesante de los métodos de conjuntos aka de múltiples estados, vea esta publicación de blog de Bob Carpenter en el blog de Gelman, y mi comentario se refiere a esta publicación de CV.
fuente
Estoy de acuerdo con su evaluación de que no hay puntos de referencia exhaustivos establecidos para los métodos MCMC. Esto se debe a que cada muestra MCMC tiene pros y contras, y son extremadamente específicos de problemas.
En una configuración típica de modelado bayesiano, puede ejecutar el mismo muestreador con diversas velocidades de mezcla cuando los datos son diferentes. Diría que si en el futuro sale un estudio de referencia exhaustivo de varios muestreadores MCMC, no confiaría en que los resultados sean aplicables fuera de los ejemplos mostrados.
Con respecto al uso de ESS para evaluar la calidad del muestreo, vale la pena mencionar que ESS depende de la cantidad que se estimará a partir de la muestra. Si desea encontrar la media de la muestra, el ESS obtenido será diferente de si desea estimar el 25º cuantil. Dicho esto, si la cantidad de interés es fija, ESS es una forma razonable de comparar muestreadores. Quizás una mejor idea es ESS por unidad de tiempo.
Una falla con ESS es que para problemas de estimación multivariada, ESS devuelve un tamaño de muestra efectivo para cada componente por separado, ignorando todas las correlaciones cruzadas en el proceso de estimación. En este documento recientemente, se ha propuesto un ESS multivariado, e implementado en
R
paquete amcmcse
través de la funciónmultiESS
. No está claro cómo este método se compara con el ESS delcoda
paquete, pero al principio parece más razonable que los métodos univariados de ESS.fuente