Los parámetros de máxima verosimilitud se desvían de las distribuciones posteriores

11

Tengo una función de probabilidad L(d|θ) para la probabilidad de mis datos d dados algunos parámetros del modelo θRN , que me gustaría estimar. Suponiendo anteriores planos sobre los parámetros, la probabilidad es proporcional a la probabilidad posterior. Yo uso un método MCMC para probar esta probabilidad.

Al observar la cadena convergente resultante, encuentro que los parámetros de máxima verosimilitud no son consistentes con las distribuciones posteriores. Por ejemplo, la distribución de probabilidad posterior marginada para uno de los parámetros podría ser θ0N(μ=0,σ2=1) , mientras que el valor de θ0 en el punto de máxima probabilidad es θ0ML4 , esencialmente siendo casi el valor máximo de θ0 atravesado por el muestreador MCMC.

Este es un ejemplo ilustrativo, no mis resultados reales. Las distribuciones reales son mucho más complicadas, pero algunos de los parámetros ML tienen valores p igualmente improbables en sus respectivas distribuciones posteriores. Tenga en cuenta que algunos de mis parámetros están delimitados (por ejemplo, 0θ11 ); dentro de los límites, los antecedentes son siempre uniformes.

Mis preguntas son:

  1. ¿Es tal desviación un problema per se ? Obviamente, no espero que los parámetros de ML coincidan exactamente con los máximos de cada una de sus distribuciones posteriores marginadas, pero intuitivamente parece que tampoco deberían encontrarse en lo profundo de las colas. ¿Esta desviación invalida automáticamente mis resultados?

  2. Si esto es necesariamente problemático o no, ¿podría ser sintomático de patologías específicas en alguna etapa del análisis de datos? Por ejemplo, ¿es posible hacer una declaración general sobre si tal desviación podría ser inducida por una cadena convergente inadecuada, un modelo incorrecto o límites excesivamente estrechos en los parámetros?

mgc70
fuente

Respuestas:

15

Con las anteriores planas, la posterior es idéntica a la probabilidad hasta una constante. Así

  1. El MLE (estimado con un optimizador) debe ser idéntico al MAP (valor máximo a posteriori = modo multivariado del posterior, estimado con MCMC). Si no obtiene el mismo valor, tiene un problema con su muestreador u optimizador.

  2. Para modelos complejos, es muy común que los modos marginales sean diferentes del MAP. Esto sucede, por ejemplo, si las correlaciones entre parámetros son no lineales. Esto está perfectamente bien, pero los modos marginales, por lo tanto, no deben interpretarse como los puntos de mayor densidad posterior, y no deben compararse con el MLE.

  3. Sin embargo, en su caso específico, sospecho que la parte posterior corre contra el límite anterior. En este caso, el posterior será fuertemente asimétrico, y no tiene sentido interpretarlo en términos de media, sd. No existe un problema principal con esta situación, pero en la práctica a menudo sugiere una especificación errónea del modelo o antecedentes mal elegidos.

Florian Hartig
fuente
15

Algunas posibles explicaciones genéricas para esta discrepancia percibida, suponiendo, por supuesto, que no hay problema con el código o la definición de probabilidad o la implementación de MCMC o el número de iteraciones de MCMC o la convergencia del maximizador de probabilidad (gracias, Jacob Socolar ):

  1. NNθ|xNN(0,IN)θN22N0

  2. Mientras que el MAP y el MLE se confunden bajo un plano anterior, las densidades marginales de los diferentes parámetros del modelo pueden tener modos (marginales) que están muy lejos de los MLE correspondientes (es decir, MAP).

  3. El MAP es una posición en el espacio de parámetros donde la densidad posterior es más alta, pero esto no transmite ninguna indicación de peso o volumen posterior para las vecindades del MAP. Una espiga muy delgada no tiene peso posterior. Esta es también la razón por la cual la exploración MCMC de un posterior puede enfrentar dificultades para identificar el modo posterior.

  4. El hecho de que la mayoría de los parámetros estén delimitados puede dar lugar a que algunos componentes del MAP = MLE ocurran en un límite.

Ver, por ejemplo, Druihlet y Marin (2007) para argumentos sobre la naturaleza no bayesiana de los estimadores MAP. Uno es la dependencia de estos estimadores en la medida dominante, otro es la falta de invariancia bajo reparameterisation (a diferencia de MLE).

Como ejemplo del punto 1 anterior, aquí hay un código R corto

N=100
T=1e4
lik=dis=rep(0,T)
mu=rmvnorm(1,mean=rep(0,N))
xobs=rmvnorm(1,mean=rep(0,N))
lik[1]=dmvnorm(xobs,mu,log=TRUE)
dis[1]=(xobs-mu)%*%t(xobs-mu)
for (t in 2:T){
  prop=rmvnorm(1,mean=mu,sigma=diag(1/N,N))
  proike=dmvnorm(xobs,prop,log=TRUE)
  if (log(runif(1))<proike-lik[t-1]){
    mu=prop;lik[t]=proike
     }else{lik[t]=lik[t-1]}
    dis[t]=(xobs-mu)%*%t(xobs-mu)}

que imita una secuencia de Metrópolis-Hastings aleatoria en la dimensión N = 100. El valor de la probabilidad de registro en el MAP es -91.89, pero las probabilidades visitadas nunca se acercan:

> range(lik)
[1] -183.9515 -126.6924

lo cual se explica por el hecho de que la secuencia nunca se acerca a la observación:

> range(dis)
[1]  69.59714 184.11525
Xi'an
fuente
3
Solo agregaría que además de preocuparse por el código o la definición de probabilidad o la implementación de MCMC, el OP también podría preocuparse por si el software utilizado para obtener la estimación de ML quedó atrapado en un óptimo local. stats.stackexchange.com/questions/384528/…
Jacob Socolar