Estaba revisando la documentación de Stan que se puede descargar desde aquí . Estaba particularmente interesado en su implementación del diagnóstico Gelman-Rubin. El artículo original Gelman y Rubin (1992) define el factor de reducción de escala potencial (PSRF) de la siguiente manera:
Deje que sea la ésima cadena de Markov muestreada, y que haya cadenas independientes independientes muestreadas. Sea la media de la ésima cadena, y sea la media general. Definir, donde Y defina B B = \ dfrac {N} {M-1} \ sum_ {m = 1} ^ {M} (\ bar {X} _ {m \ cdot} - \ bar {X} _ {\ cdot \ cdot }) ^ 2 \ ,. i M ˉ X i ⋅ i ˉ X ⋅ ⋅ W = 1s 2 m =1
Defina
La documentación de Stan en la página 349 ignora el término con y también elimina el término multiplicativo Esta es su fórmula,
El estimador de varianza es
Finalmente, la estadística de reducción de escala potencial se define por
Por lo que pude ver, no proporcionan una referencia para este cambio de fórmula, y tampoco lo discuten. Por lo general, no es demasiado grande, y a menudo puede ser tan bajo como , por lo que no debe ignorarse, incluso si el término se puede aproximar a 1.
Entonces, ¿de dónde viene esta fórmula?
EDITAR: He encontrado una respuesta parcial a la pregunta "¿de dónde viene esta fórmula? ", En que el libro Bayesian Data Analysis de Gelman, Carlin, Stern y Rubin (Segunda edición) tiene exactamente la misma fórmula. Sin embargo, el libro no explica cómo / por qué es justificable ignorar esos términos.
fuente
Respuestas:
Seguí el enlace específico dado para Gelman y Rubin (1992) y tiene como en las versiones posteriores, aunque reemplazado con en Brooks & Gelman (1998) y con en BDA2 (Gelman et al, 2003) y BDA3 (Gelman et al, 2013). sigma sigma + ^ v un r +
BDA2 y BDA3 (no se pudo verificar ahora BDA1) tienen un ejercicio con sugerencias para mostrar que es una estimación imparcial de la cantidad deseada.varˆ+
Gelman & Brooks (1998) tiene la ecuación 1.1 que se puede reorganizar como Podemos ver que el efecto del segundo y tercer término es insignificante para la toma de decisiones cuando es grande. Véase también la discusión en el párrafo anterior a la Sección 3.1 en Brooks y Gelman (1998).
Gelman y Rubin (1992) también tenían el término con df como df / (df-2). Brooks y Gelman (1998) tienen una sección que describe por qué esta corrección de df es incorrecta y definen (df + 3) / (df + 1). El párrafo anterior a la Sección 3.1 en Brooks y Gelman (1998) explica por qué (d + 3) / (d + 1) puede descartarse.
Parece que su fuente para las ecuaciones fue algo posterior a Brooks y Gelman (1998), ya que tenía (d + 3) / (d + 1) allí y Gelman y Rubin (1992) tenían df / df (-2). De lo contrario, Gelman y Rubin (1992) y Brooks y Gelman (1998) tienen ecuaciones equivalentes (con notaciones ligeramente diferentes y algunos términos están organizados de manera diferente). BDA2 (Gelman, et al., 2003) ya no tiene términosσ^+Wm−n−1mn . BDA3 (Gelman et al., 2003) y Stan introdujeron la versión de cadenas divididas.
Mi interpretación de los documentos y experiencias usando diferentes versiones de es que los términos que finalmente se han eliminado pueden ignorarse cuando es grande, incluso cuando no lo es. También recuerdo vagamente haber discutido esto con Andrew Gelman hace años, pero si quieres estar seguro de la historia, debes preguntarle.R^ n m
Realmente espero que este no sea el caso a menudo. En los casos en que desee utilizar el diagnóstico de convergencia split- , debe usar al menos 4 cadenas divididas y, por lo tanto, tener M = 8. Puede usar menos cadenas, si ya sabe que en sus casos específicos la convergencia y la mezcla son rápidas.R^
Referencia adicional:
fuente