No estoy seguro sobre el comentario del método de predicción, pero un problema principal está relacionado con la generación de medidas de varianza fácilmente interpretables, no con las medidas de varianza per se. Bates no está comentando en la primera cita si puede hacerlo, sino lo que significa.
Tome un modelo simple de varios niveles de un diseño de medidas repetidas de dos niveles. Digamos que tiene los siguientes datos donde cada línea es un asunto:
En lmer
el modelo se podría expresar como:
y ~ x + (1|subject)
Está prediciendo el valor y de x como un efecto fijo (la diferencia entre A y B); y la intercepción de un efecto aleatorio **. Mire cuidadosamente el gráfico y observe que si bien existe una variabilidad en el efecto x para cada sujeto (pendiente de cada línea) es relativamente pequeño en comparación con la variabilidad entre sujetos (la altura de cada línea).
El modelo analiza estos dos conjuntos de variabilidad y cada uno es significativo. Puede usar los efectos aleatorios para predecir las alturas de las líneas y puede usar los efectos fijos de x para predecir las pendientes. Incluso podría usar los dos combinados para trabajar nuestros valores y individuales. Pero lo que no puede hacer es realmente decir algo significativo con respecto a su modelo cuando combina la variabilidad de las pendientes y las alturas de las líneas. Debe hablar sobre la variabilidad de sus pendientes y alturas de líneas por separado. Esa es una característica del modelo, no una responsabilidad.
Tendrá una variabilidad del efecto de x que es relativamente fácil de estimar. Se podría decir algo sobre un intervalo de confianza en torno a eso. Pero tenga en cuenta que este intervalo de confianza tendrá una pequeña relación con la predicción de cualquier valor y particular porque el valor y está influenciado por una combinación de efecto y varianza del sujeto que es diferente de la variabilidad del efecto solo.
Cuando Bates escribe cosas como las que usted ha citado, imagino que a menudo piensa en diseños de niveles múltiples mucho más complejos que esto ni siquiera aborda. Pero incluso si considera este simple ejemplo, se pregunta qué tipo de significado real se puede extraer de la combinación de todas las medidas de varianza.
** Ignoré el efecto fijo de la intercepción por simplicidad y solo lo traté como un efecto aleatorio. Podría extraer conclusiones similares de un modelo aún más simple con una intercepción aleatoria y fija solamente, pero creo que sería más difícil de transmitir. En ese caso, una vez más, el efecto fijo y el efecto aleatorio se analizan por una razón y significan cosas diferentes y volver a unir su variabilidad para los valores pronosticados hace que esa variabilidad tenga poco sentido con respecto al modelo.
Durante mucho tiempo me he preguntado sobre la creencia aparentemente común de que existe una diferencia fundamental en los efectos fijos y aleatorios para los modelos de efectos mixtos (generalmente no lineales). Esta creencia es, por ejemplo, declarada por Bates en la siguiente respuesta
https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html
Bates afirma claramente que cree que existe una diferencia fundamental entre los efectos fijos y aleatorios para que no puedan combinarse. Creo que está equivocado y espero convencer a algunos lectores de un punto de vista alternativo. Tomo un enfoque frecuentista, así que lo que quiero hacer es definir una noción de probabilidad de perfil para una función de los efectos fijos y aleatorios. Para motivar la discusión, supongamos que tenemos un modelo de dos parámetros con los parámetros x y u (nada sobre efectos aleatorios hasta ahora). Sea la función de probabilidad donde suprimimos cualquier referencia a los datos. Supongamos que sea cualquier función (agradable) de x y u. La probabilidad de perfil para la función viene dada porg ( x , u ) P g ( t ) gL(x,u) g(x,u) Pg(t) g
Creo que nadie discutiría con esto. Ahora supongamos que tenemos una distribución de probabilidad previa para u. Entonces afirmaría que la probabilidad de perfil para todavía tiene sentido, pero deberíamos modificar (1) incluyendo el anterior.p(u) g
Por lo tanto, para obtener información sobre la función no debemos integrar el parámetro . Pero lo que sucede en el caso donde hay muchos parámetros de efectos aleatorios. Luego afirmo que deberíamos integrarnos sobre `` la mayoría '', pero no todos, en un sentido que voy a precisar. Para motivar la construcción, deje que haya efectos aleatorios . Considere el caso especial donde la función solo depende de , y de hecho es la función más simple imaginable, . Integre sobre los efectos aleatorios para obtenerg(x,u) u n u=(u1,u2,...,un−1,un) g(x,u) un g(x,u)=un u1,u2,...,un−1
Para una función general formamos la función definida por y calculamos la probabilidad de perfilg(x,u) F(x,s) (5)
La probabilidad de este perfil es un concepto bien definido y se sostiene por sí mismo. Sin embargo, para ser útil en la práctica, uno debe poder calcular su valor, al menos aproximadamente. Creo que para muchos modelos la función se puede aproximar suficientemente bien usando una variante de la aproximación de Laplace. Defina por Sea H el hessian del logaritmo de la función con respecto a los parámetros y .F(x,s) x^(s),u^(s)
Los conjuntos de niveles de son submanifolds dimensionales de un espacio dimensional donde hay efectos fijos y efectos aleatorios. Necesitamos integrar una forma sobre este múltiple donde todo está linealizado en Esto implica un poco de geometría diferencial elemental. Suponga que Al volver a parametrizar podemos suponer que y . Entonces considera el mapag m+n−1 n+m m n n du1∧du2∧…∧dun x^(s),u^(s) gxn(x^(s),u^(s))≠0 x^(s)=0 u^(s)=0
El retroceso del hessiano es la forma cuadrática
Por lo tanto, la integral se puede calcular (o aproximar) mediante la aproximación de Laplace, que es la fórmula habitual que implica el logaritmo del determinante de , que se calcula mediante la descomposición de Cholesky. El valor de la aproximación de Laplace de la integral es dondeEs el determinante. todavía tenemos que tratar con el ancho del conjunto de niveles de como Para ordenar primero esto tiene el valor donde es el vector de derivadas parciales deT
fuente