Estoy un poco confundido acerca de las ventajas de los modelos mixtos con respecto al modelado predictivo. Dado que los modelos predictivos generalmente están destinados a predecir valores de observaciones previamente desconocidas, me parece obvio que la única forma en que un modelo mixto puede ser útil es a través de su capacidad para proporcionar predicciones a nivel de población (sin agregar ningún efecto aleatorio). Sin embargo, el problema es que hasta ahora, en mi experiencia, las predicciones a nivel de población basadas en modelos mixtos son significativamente peores que las predicciones basadas en modelos de regresión estándar con efectos fijos solamente.
Entonces, ¿cuál es el punto de los modelos mixtos con respecto a los problemas de predicción?
EDITAR. El problema es el siguiente: ajusté un modelo mixto (con efectos fijos y aleatorios) y un modelo lineal estándar solo con efectos fijos. Cuando realizo la validación cruzada obtengo una siguiente jerarquía de precisión predictiva: 1) modelos mixtos al predecir el uso de efectos fijos y aleatorios (pero esto funciona, por supuesto, solo para observaciones con niveles conocidos de variables de efectos aleatorios, por lo que este enfoque predictivo no parece ser adecuado para aplicaciones predictivas reales!); 2) modelo lineal estándar; 3) modelo mixto cuando se usan predicciones a nivel de población (por lo que se eliminan los efectos aleatorios). Por lo tanto, la única diferencia entre el modelo lineal estándar y el modelo mixto es un valor algo diferente de los coeficientes debido a los diferentes métodos de estimación (es decir, hay los mismos efectos / predictores en ambos modelos, pero tienen diferentes coeficientes asociados).
Entonces, mi confusión se reduce a una pregunta: ¿por qué usaría un modelo mixto como modelo predictivo, ya que usar un modelo mixto para generar predicciones a nivel de población parece ser una estrategia inferior en comparación con un modelo lineal estándar?
Respuestas:
Depende de la naturaleza de los datos, pero en general esperaría que el modelo mixto supere a los modelos de efectos fijos solamente.
Tomemos un ejemplo: modelar la relación entre la luz del sol y la altura de los tallos de trigo. Tenemos varias medidas de tallos individuales, pero muchos de los tallos se miden en los mismos sitios (que son similares en el suelo, el agua y otras cosas que pueden afectar la altura). Aquí hay algunos modelos posibles:
1) altura ~ sol
2) altura ~ sol + sitio
3) altura ~ sol + (1 | sitio)
Queremos usar estos modelos para predecir la altura de los nuevos tallos de trigo, dada una estimación de la luz solar que experimentarán. Voy a ignorar la penalización de parámetros que pagaría por tener muchos sitios en un modelo de efectos fijos, y solo consideraré el poder predictivo relativo de los modelos.
La pregunta más relevante aquí es si estos nuevos puntos de datos que intenta predecir provienen de uno de los sitios que ha medido; Dices que esto es raro en el mundo real, pero sucede.
A) Los datos nuevos provienen de un sitio que ha medido
Si es así, los modelos # 2 y # 3 superarán al # 1. Ambos usan información más relevante (efecto medio del sitio) para hacer predicciones.
B) Los datos nuevos provienen de un sitio no medido
Todavía esperaría que el modelo # 3 supere al # 1 y al # 2, por las siguientes razones.
(i) Modelo # 3 vs # 1:
El modelo n. ° 1 producirá estimaciones sesgadas a favor de sitios sobrerrepresentados. Si tiene un número similar de puntos de cada sitio y una muestra de sitios razonablemente representativa, debería obtener resultados similares de ambos.
(ii) Modelo # 3 vs. # 2:
¿Por qué el modelo # 3 sería mejor que el modelo # 2 en este caso? Debido a que los efectos aleatorios aprovechan la reducción , los efectos del sitio se 'reducirán' hacia cero. En otras palabras, tenderá a encontrar valores menos extremos para los efectos del sitio cuando se especifica como un efecto aleatorio que cuando se especifica como un efecto fijo. Esto es útil y mejora su capacidad de predicción cuando las medias de la población pueden considerarse razonablemente como extraídas de una distribución normal (consulte la paradoja de Stein en las estadísticas ). Si no se espera que las medias poblacionales sigan una distribución normal, esto podría ser un problema, pero generalmente es una suposición muy razonable y el método es robusto para pequeñas desviaciones.
[Nota al margen: por defecto, al ajustar el modelo # 2, la mayoría del software usaría uno de los sitios como referencia y estimaría los coeficientes para los otros sitios que representan su desviación de la referencia. Por lo tanto, puede parecer que no hay forma de calcular un "efecto de población" general. Pero puede calcular esto promediando las predicciones para todos los sitios individuales, o más simplemente cambiando la codificación del modelo para que se calculen los coeficientes para cada sitio.]
fuente
Seguimiento de la excelente respuesta de mkt: desde mi propia experiencia personal desarrollando modelos predictivos en el campo de los seguros de salud, la incorporación de efectos aleatorios en los modelos predictivos (incluidos los modelos de aprendizaje automático) tiene varias ventajas.
A menudo se me pide que construya modelos que pronostiquen los resultados de reclamos futuros para (por ejemplo, gastos de salud futuros, duración de la estadía, etc.) basados en los datos históricos de reclamos de un individuo. Con frecuencia hay múltiples reclamos por individuo con resultados correlacionados. Ignorar el hecho de que muchas reclamaciones son compartidas por el mismo paciente estaría arrojando información valiosa en un modelo predictivo.
Una solución sería crear variables indicadoras de efectos fijos para cada miembro en el conjunto de datos y utilizar una regresión penalizada para reducir cada uno de los efectos fijos a nivel de miembro por separado. Sin embargo, si hay miles o millones de miembros en sus datos, una solución más eficiente desde el punto de vista computacional y predictivo puede ser representar los efectos fijos a nivel de miembro múltiple como un término de efecto aleatorio único con una distribución normal.
fuente