¿Por qué predeciría a partir de un modelo de efectos mixtos sin incluir efectos aleatorios para la predicción?

10

Esta es más una pregunta conceptual, pero a medida que utilizo Rme referiré a los paquetes en R. Si el objetivo es ajustar un modelo lineal para fines de predicción, y luego hacer predicciones donde los efectos aleatorios podrían no estar disponibles, ¿hay algún beneficio en usar un modelo de efectos mixtos, o debería usarse un modelo de efectos fijos?

Por ejemplo, si tengo datos sobre peso versus altura con alguna otra información, y construyo el siguiente modelo usando lme4, donde el sujeto es un factor con niveles ( n = n o . S a m p l e s ):nortenorte=norteo.sunametropaglmis

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

Entonces quiero poder predecir el peso del modelo utilizando nuevos datos de altura y edad. Obviamente, la variación por tema en los datos originales se captura en el modelo, pero ¿es posible utilizar esta información en la predicción? Digamos que tengo algunos datos nuevos de altura y edad, y quiero predecir el peso, puedo hacerlo de la siguiente manera:

predict(mod1,newdata=newdf) # newdf columns for height, age, subject

Esto usará predict.merMod, y puedo incluir una columna para (nuevos) temas en newdf, o establecer re.form =~0. En primera instancia, no está claro qué hace el modelo con los "nuevos" factores de sujeto, y en la segunda instancia, ¿se ignorará (promediará) la varianza por sujeto capturada en el modelo para la predicción?

En cualquier caso, me parece que un modelo lineal de efectos fijos podría ser más apropiado. De hecho, si mi comprensión es correcta, entonces un modelo de efectos fijos debería predecir los mismos valores que el modelo mixto, si el efecto aleatorio no se usa en la predicción. ¿Debería ser este el caso? En Rno es, por ejemplo:

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject

produce diferentes resultados para:

mod2 <- lm(weight ~ height + age, data=df)

predict(mod2,newdata=newdf) # newdf columns for height, age


alma tribal
fuente
1
Podría ser interanual desea predecir para un nuevo grupo que no fue incluido en la estimación
kjetil b Halvorsen
Sí, pero en ese caso, ¿por qué molestarse con un modelo de efectos mixtos? ¿Qué le da a usted que un modelo de efectos fijos no lo hace, si ignora los efectos aleatorios en la predicción?
tribalsoul
1
Bueno, podría dar mejores estimadores, porque tiene un modelo mejor (más correcto) de la estructura de error
kjetil b halvorsen

Respuestas:

5

Experimento de pensamiento simple: ha medido el peso y la altura de 5 bebés después del nacimiento. Y lo midiste de los mismos bebés nuevamente después de dos años. Mientras tanto, midió el peso y la altura de su hija casi todas las semanas, lo que resultó en 100 pares de valores para ella. Si usa un modelo de efectos mixtos, no hay problema. Si usa un modelo de efectos fijos, le da un peso indebido a las mediciones de su hija, hasta el punto en que obtendría casi el mismo modelo si usara solo datos de ella. Por lo tanto, no solo es importante para la inferencia modelar medidas repetidas o estructuras de incertidumbre correctamente, sino también para la predicción. En general, no obtiene las mismas predicciones de un modelo de efectos mixtos y de un modelo de efectos fijos (con supuestos violados).

y puedo incluir una columna para (nuevos) temas en newdf

No puede predecir los sujetos que no formaron parte de los datos originales (de capacitación). De nuevo un experimento mental: el nuevo sujeto es obeso. ¿Cómo podría saber el modelo que está en el extremo superior de la distribución de efectos aleatorios?

¿La varianza por sujeto capturada en el modelo simplemente será ignorada (promediada) para la predicción

Si te entiendo correctamente, entonces sí. El modelo le proporciona una estimación del valor esperado para la población (tenga en cuenta que esta estimación aún está condicionada a los sujetos originales).

Roland
fuente
1
Gracias por la explicación clara y el ejemplo, todo esto tiene sentido. Sin embargo, donde declaras You can't predict for subjects which were not part of the original (training) data; ¿No es establecer re.form=~0y predecir el valor esperado de la población lo que me permite hacer exactamente eso? Por supuesto, el modelo no está usando ninguna información específica del sujeto en la predicción, pero es justo decir que la estimación de un modelo de efectos mixtos seguirá siendo más precisa que la de un modelo de efectos fijos equivalente donde la variación específica del sujeto fue ignorado?
tribalsoul
1
El modelo fijo no es aplicable ya que se violan sus supuestos. Debe usar un modelo que incluya una estructura de dependencia. re.form=~0le ofrece la predicción a nivel de población, que es lo mejor que puede hacer para nuevas asignaturas.
Roland
Tenía la misma pregunta al usar el glmmLasso paquete en R. El autor del paquete, Andreas Groll, dijo que el procedimiento glmmLasso usa solo los efectos fijos para hacer predicciones para nuevos sujetos y efectos fijos + aleatorios para los sujetos existentes en el próximo período de tiempo.
RobertF