Esta es más una pregunta conceptual, pero a medida que utilizo R
me referiré a los paquetes en R
. Si el objetivo es ajustar un modelo lineal para fines de predicción, y luego hacer predicciones donde los efectos aleatorios podrían no estar disponibles, ¿hay algún beneficio en usar un modelo de efectos mixtos, o debería usarse un modelo de efectos fijos?
Por ejemplo, si tengo datos sobre peso versus altura con alguna otra información, y construyo el siguiente modelo usando lme4
, donde el sujeto es un factor con niveles ( n = n o . S a m p l e s ):
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
Entonces quiero poder predecir el peso del modelo utilizando nuevos datos de altura y edad. Obviamente, la variación por tema en los datos originales se captura en el modelo, pero ¿es posible utilizar esta información en la predicción? Digamos que tengo algunos datos nuevos de altura y edad, y quiero predecir el peso, puedo hacerlo de la siguiente manera:
predict(mod1,newdata=newdf) # newdf columns for height, age, subject
Esto usará predict.merMod
, y puedo incluir una columna para (nuevos) temas en newdf
, o establecer re.form =~0
. En primera instancia, no está claro qué hace el modelo con los "nuevos" factores de sujeto, y en la segunda instancia, ¿se ignorará (promediará) la varianza por sujeto capturada en el modelo para la predicción?
En cualquier caso, me parece que un modelo lineal de efectos fijos podría ser más apropiado. De hecho, si mi comprensión es correcta, entonces un modelo de efectos fijos debería predecir los mismos valores que el modelo mixto, si el efecto aleatorio no se usa en la predicción. ¿Debería ser este el caso? En R
no es, por ejemplo:
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject
produce diferentes resultados para:
mod2 <- lm(weight ~ height + age, data=df)
predict(mod2,newdata=newdf) # newdf columns for height, age
fuente
Respuestas:
Experimento de pensamiento simple: ha medido el peso y la altura de 5 bebés después del nacimiento. Y lo midiste de los mismos bebés nuevamente después de dos años. Mientras tanto, midió el peso y la altura de su hija casi todas las semanas, lo que resultó en 100 pares de valores para ella. Si usa un modelo de efectos mixtos, no hay problema. Si usa un modelo de efectos fijos, le da un peso indebido a las mediciones de su hija, hasta el punto en que obtendría casi el mismo modelo si usara solo datos de ella. Por lo tanto, no solo es importante para la inferencia modelar medidas repetidas o estructuras de incertidumbre correctamente, sino también para la predicción. En general, no obtiene las mismas predicciones de un modelo de efectos mixtos y de un modelo de efectos fijos (con supuestos violados).
No puede predecir los sujetos que no formaron parte de los datos originales (de capacitación). De nuevo un experimento mental: el nuevo sujeto es obeso. ¿Cómo podría saber el modelo que está en el extremo superior de la distribución de efectos aleatorios?
Si te entiendo correctamente, entonces sí. El modelo le proporciona una estimación del valor esperado para la población (tenga en cuenta que esta estimación aún está condicionada a los sujetos originales).
fuente
You can't predict for subjects which were not part of the original (training) data
; ¿No es establecerre.form=~0
y predecir el valor esperado de la población lo que me permite hacer exactamente eso? Por supuesto, el modelo no está usando ninguna información específica del sujeto en la predicción, pero es justo decir que la estimación de un modelo de efectos mixtos seguirá siendo más precisa que la de un modelo de efectos fijos equivalente donde la variación específica del sujeto fue ignorado?re.form=~0
le ofrece la predicción a nivel de población, que es lo mejor que puede hacer para nuevas asignaturas.glmmLasso
paquete en R. El autor del paquete, Andreas Groll, dijo que el procedimiento glmmLasso usa solo los efectos fijos para hacer predicciones para nuevos sujetos y efectos fijos + aleatorios para los sujetos existentes en el próximo período de tiempo.