¿Son útiles los modelos mixtos como modelos predictivos?

24

Estoy un poco confundido acerca de las ventajas de los modelos mixtos con respecto al modelado predictivo. Dado que los modelos predictivos generalmente están destinados a predecir valores de observaciones previamente desconocidas, me parece obvio que la única forma en que un modelo mixto puede ser útil es a través de su capacidad para proporcionar predicciones a nivel de población (sin agregar ningún efecto aleatorio). Sin embargo, el problema es que hasta ahora, en mi experiencia, las predicciones a nivel de población basadas en modelos mixtos son significativamente peores que las predicciones basadas en modelos de regresión estándar con efectos fijos solamente.

Entonces, ¿cuál es el punto de los modelos mixtos con respecto a los problemas de predicción?

EDITAR. El problema es el siguiente: ajusté un modelo mixto (con efectos fijos y aleatorios) y un modelo lineal estándar solo con efectos fijos. Cuando realizo la validación cruzada obtengo una siguiente jerarquía de precisión predictiva: 1) modelos mixtos al predecir el uso de efectos fijos y aleatorios (pero esto funciona, por supuesto, solo para observaciones con niveles conocidos de variables de efectos aleatorios, por lo que este enfoque predictivo no parece ser adecuado para aplicaciones predictivas reales!); 2) modelo lineal estándar; 3) modelo mixto cuando se usan predicciones a nivel de población (por lo que se eliminan los efectos aleatorios). Por lo tanto, la única diferencia entre el modelo lineal estándar y el modelo mixto es un valor algo diferente de los coeficientes debido a los diferentes métodos de estimación (es decir, hay los mismos efectos / predictores en ambos modelos, pero tienen diferentes coeficientes asociados).

Entonces, mi confusión se reduce a una pregunta: ¿por qué usaría un modelo mixto como modelo predictivo, ya que usar un modelo mixto para generar predicciones a nivel de población parece ser una estrategia inferior en comparación con un modelo lineal estándar?

sztal
fuente
¿Cómo estás haciendo tus predicciones? ¿No estás usando los efectos aleatorios o estás arreglando tus efectos aleatorios a su manera? (Es decir, ¿estás tirando los efectos aleatorios en el tiempo de predicción?)
Wayne
Por lo que entiendo correctamente los efectos aleatorios, fijar los efectos aleatorios en sus medios es lo mismo que tirarlos, ya que los efectos aleatorios (al menos en la parametrización que uso) se generan a partir de una distribución normal de medias 0 y varianza sigma. Pero de todos modos, dado que no conozco los valores de las variables de efectos aleatorios para nuevas observaciones, por supuesto, no uso efectos aleatorios en el tiempo de predicción, solo efectos fijos.
sztal
1
Puede consultar este documento, "Sobre la efectividad de los clasificadores de regresión logística basados ​​en modelos mixtos para datos longitudinales", search.proquest.com/openview/3578d64c85f3c1c52414924d044bca2c/…
Jon
1
Sztal: Tienes razón, por supuesto. Estaba tratando de responder rápidamente y dije algo que no tenía sentido. Encontré el documento ( gllamm.org/JRSSApredict_09.pdf ) que aborda la predicción en la Sección 7. Tengo que decir que no puedo resumirlo en un comentario, lo que indica que realmente no lo entiendo.
Wayne
Una última pregunta: cuando compara solo efectos fijos con efectos mixtos, ¿está utilizando los mismos efectos fijos en cada uno, con solo la adición de algo así como una intercepción de nivel individual? Parece que en esta situación, debería tener efectos muy similares, excepto con una mejor idea de su verdadero intervalo predictivo.
Wayne

Respuestas:

17

Depende de la naturaleza de los datos, pero en general esperaría que el modelo mixto supere a los modelos de efectos fijos solamente.

Tomemos un ejemplo: modelar la relación entre la luz del sol y la altura de los tallos de trigo. Tenemos varias medidas de tallos individuales, pero muchos de los tallos se miden en los mismos sitios (que son similares en el suelo, el agua y otras cosas que pueden afectar la altura). Aquí hay algunos modelos posibles:

1) altura ~ sol

2) altura ~ sol + sitio

3) altura ~ sol + (1 | sitio)

Queremos usar estos modelos para predecir la altura de los nuevos tallos de trigo, dada una estimación de la luz solar que experimentarán. Voy a ignorar la penalización de parámetros que pagaría por tener muchos sitios en un modelo de efectos fijos, y solo consideraré el poder predictivo relativo de los modelos.

La pregunta más relevante aquí es si estos nuevos puntos de datos que intenta predecir provienen de uno de los sitios que ha medido; Dices que esto es raro en el mundo real, pero sucede.

A) Los datos nuevos provienen de un sitio que ha medido

Si es así, los modelos # 2 y # 3 superarán al # 1. Ambos usan información más relevante (efecto medio del sitio) para hacer predicciones.

B) Los datos nuevos provienen de un sitio no medido

Todavía esperaría que el modelo # 3 supere al # 1 y al # 2, por las siguientes razones.

(i) Modelo # 3 vs # 1:

El modelo n. ° 1 producirá estimaciones sesgadas a favor de sitios sobrerrepresentados. Si tiene un número similar de puntos de cada sitio y una muestra de sitios razonablemente representativa, debería obtener resultados similares de ambos.

(ii) Modelo # 3 vs. # 2:

¿Por qué el modelo # 3 sería mejor que el modelo # 2 en este caso? Debido a que los efectos aleatorios aprovechan la reducción , los efectos del sitio se 'reducirán' hacia cero. En otras palabras, tenderá a encontrar valores menos extremos para los efectos del sitio cuando se especifica como un efecto aleatorio que cuando se especifica como un efecto fijo. Esto es útil y mejora su capacidad de predicción cuando las medias de la población pueden considerarse razonablemente como extraídas de una distribución normal (consulte la paradoja de Stein en las estadísticas ). Si no se espera que las medias poblacionales sigan una distribución normal, esto podría ser un problema, pero generalmente es una suposición muy razonable y el método es robusto para pequeñas desviaciones.

[Nota al margen: por defecto, al ajustar el modelo # 2, la mayoría del software usaría uno de los sitios como referencia y estimaría los coeficientes para los otros sitios que representan su desviación de la referencia. Por lo tanto, puede parecer que no hay forma de calcular un "efecto de población" general. Pero puede calcular esto promediando las predicciones para todos los sitios individuales, o más simplemente cambiando la codificación del modelo para que se calculen los coeficientes para cada sitio.]

mkt - Restablecer a Monica
fuente
Gracias por la respuesta. Estoy bastante convencido. Desafortunadamente, ahora no recuerdo el caso exacto que motivó mi pregunta, pero creo que el bajo rendimiento de un modelo mixto en mi caso podría deberse a distribuciones bastante irregulares de predictores que utilicé en el modelo. Pronto aceptaré la respuesta, pero dado que la pregunta atrajo un poco de atención, le daré unos días más para que alguien pueda dar una explicación más estricta (tal vez con algunos ejemplos).
sztal
1
Así poner. Cabe señalar que la predicción jerárquica de los efectos específicos del sitio que dan lugar a los efectos aleatorios, para predecir cualquier intercepción aleatoria o pendiente aleatoria que se estimó empíricamente a partir del modelo, debería ser equivalente a tener un montón de efectos fijos específicos de nivel y sitio. en el modelo
AdamO
8

Seguimiento de la excelente respuesta de mkt: desde mi propia experiencia personal desarrollando modelos predictivos en el campo de los seguros de salud, la incorporación de efectos aleatorios en los modelos predictivos (incluidos los modelos de aprendizaje automático) tiene varias ventajas.

A menudo se me pide que construya modelos que pronostiquen los resultados de reclamos futuros para (por ejemplo, gastos de salud futuros, duración de la estadía, etc.) basados ​​en los datos históricos de reclamos de un individuo. Con frecuencia hay múltiples reclamos por individuo con resultados correlacionados. Ignorar el hecho de que muchas reclamaciones son compartidas por el mismo paciente estaría arrojando información valiosa en un modelo predictivo.

Una solución sería crear variables indicadoras de efectos fijos para cada miembro en el conjunto de datos y utilizar una regresión penalizada para reducir cada uno de los efectos fijos a nivel de miembro por separado. Sin embargo, si hay miles o millones de miembros en sus datos, una solución más eficiente desde el punto de vista computacional y predictivo puede ser representar los efectos fijos a nivel de miembro múltiple como un término de efecto aleatorio único con una distribución normal.

RobertF
fuente