Mi pregunta básica es: ¿cómo tomaría muestras de una distribución incorrecta? ¿Tiene sentido tomar muestras de una distribución incorrecta?
El comentario de Xi'an aquí aborda la pregunta, pero estaba buscando más detalles sobre esto.
Más específico para MCMC:
Al hablar sobre MCMC y leer documentos, los autores hacen hincapié en haber obtenido distribuciones posteriores adecuadas. Existe el famoso artículo de Geyer (1992) donde el autor olvidó verificar si su posterior era apropiado (de lo contrario, un excelente artículo).
Pero, supongamos que tenemos una probabilidad y una distribución previa inadecuada en θ tal que el posterior resultante también es incorrecto, y MCMC se utiliza para tomar muestras de la distribución. En este caso, ¿qué indica la muestra? ¿Hay alguna información útil en esta muestra? Soy consciente de que la cadena de Markov aquí es transitoria o nula-recurrente. ¿Hay alguna conclusión positiva si es nula-recurrente ?
Finalmente, en la respuesta de Neil G aquí , menciona
normalmente puede muestrear (usando MCMC) desde la parte posterior, incluso si es incorrecto.
Menciona que tal muestreo es común en el aprendizaje profundo. Si esto es cierto, ¿cómo tiene sentido?
fuente
Respuestas:
El muestreo desde una posterior (densidad) incorrecta no tiene sentido desde un punto de vista probabilístico / teórico. La razón de esto es que la función f no tiene una integral finita sobre el espacio del parámetro y, en consecuencia, no puede vincularse a un modelo de probabilidad ( medida finita) ( Ω , σ , P ) (espacio, álgebra sigma, medida de probabilidad )f f (Ω,σ,P)
Si tiene un modelo con una versión anterior incorrecta que conduce a una parte posterior incorrecta, en muchos casos aún puede tomar muestras de ella utilizando MCMC, por ejemplo Metropolis-Hastings, y las "muestras posteriores" pueden parecer razonables. Esto parece intrigante y paradójico a primera vista. Sin embargo, la razón de esto es que los métodos MCMC están restringidos a limitaciones numéricas de las computadoras en la práctica y, por lo tanto, todos los soportes están limitados (¡y discretos!) Para una computadora. Luego, bajo esas restricciones (delimitación y discreción), la parte posterior es realmente adecuada en la mayoría de los casos.
Hay una gran referencia de Hobert y Casella que presenta un ejemplo (de una naturaleza ligeramente diferente) en el que se puede construir una muestra de Gibbs para una posterior, las muestras posteriores se ven perfectamente razonables, ¡pero la posterior es incorrecta!
http://www.jstor.org/stable/2291572
Un ejemplo similar ha aparecido recientemente aquí . De hecho, Hobert y Casella advierten al lector que los métodos MCMC no pueden usarse para detectar la incorrección de la parte posterior y que esto debe verificarse por separado antes de implementar cualquier método MCMC. En resumen:
PD (un poco de lengua en la mejilla): no siempre creas lo que la gente hace en Machine Learning. Como dijo el profesor Brian Ripley: "el aprendizaje automático es estadística menos cualquier comprobación de modelos y suposiciones".
fuente
Dando una vista alternativa, más aplicada, de la excelente respuesta de Rod anterior:
Entonces, en principio, estaría bastante bien con el uso de una muestra generada por MCMC a partir de una distribución inadecuada en el trabajo aplicado, pero estaría prestando mucha atención a cómo surgió esa incorrección y cómo la muestra aleatoria se verá afectada por ella . Idealmente, la muestra aleatoria no se vería afectada por ella, como en mi ejemplo de hot dog, donde en un mundo razonable nunca generarías un número aleatorio mayor que el número de personas en San Francisco ...
También debe tener en cuenta el hecho de que sus resultados pueden ser bastante sensibles a la característica de la parte posterior que causó que sea incorrecta, incluso si la trunca en un gran número más adelante (o cualquier alteración que sea apropiada para su modelo. ) Desearía que sus resultados sean robustos a cambios leves que cambien su posterior de incorrecto a adecuado. Esto puede ser más difícil de asegurar, pero es parte del gran problema de asegurarse de que sus resultados sean sólidos para sus suposiciones, especialmente las que se hacen por conveniencia.
fuente