Regularización L2 versus reducción de efectos aleatorios

8

Una propiedad fundamental de la regresión de efectos aleatorios es que las estimaciones de interceptación aleatoria se "reducen" hacia la media general de la respuesta en función de la varianza relativa de cada estimación.

U^j=ρjy¯j+(1ρj)y¯
dónde
ρj=τ2/(τ2+σ2/nj).

Este es también el caso de los modelos lineales mixtos generalizados (GLMM) como la regresión logística.

¿Cómo es esa contracción mejor que / diferente de la regresión logística de efectos fijos con una codificación en caliente de las variables ID y la contracción mediante la regularización L2?

En un modelo de efectos fijos, puedo controlar la cantidad de contracción cambiando mi penalización, λ, de la regularización de L2 mientras que en un modelo de efectos aleatorios no tengo control sobre la cantidad de contracción. ¿Sería correcto decir "usar el modelo de efectos aleatorios si el objetivo es inferencia pero usar el modelo de efectos fijos si el objetivo es predicción"?

Paman Gujral
fuente

Respuestas:

8

Eso está un poco simplificado. La reducción en una regresión de efectos mixtos está ponderada por el equilibrio general entre "clases" / "grupos" en las estructuras de efectos aleatorios, por lo que no es que no pueda elegir, sino que el tamaño y la fuerza de su grupo la evidencia elige. (Piense en ello como una gran media ponderada). Además, los modelos de efectos mixtos son muy útiles cuando tiene varios grupos, pero solo muy pocos datos en cada grupo: ¡la estructura general y la agrupación parcial permiten mejores inferencias incluso dentro de cada grupo!

También hay variantes de LASSO (regularizado L1), cresta (regularizado L2) y red elástica (combinación de regularización L1 y L2) de modelos mixtos. En otras palabras, estas cosas son ortogonales. En términos bayesianos, obtiene una reducción de efectos mixtos a través de la estructura de su modelo jerárquico / multinivel y la regularización a través de su elección de la distribución de coeficientes del modelo.

Quizás la confusión surge del uso frecuente de la regularización en el "aprendizaje automático" (donde la predicción es el objetivo) pero el uso frecuente de efectos mixtos en las "estadísticas" (donde la inferencia es el objetivo), pero eso es más un efecto secundario de otros aspectos de conjuntos de datos comunes en tales áreas (por ejemplo, tamaño) y preocupaciones computacionales. Los modelos de efectos mixtos son generalmente más difíciles de ajustar, por lo que si un modelo de efectos fijos regularizado que ignora alguna estructura de los datos es lo suficientemente bueno para las predicciones que necesita, puede que no valga la pena ajustar un modelo de efectos mixtos. Pero si necesita hacer inferencias en sus datos, ignorar su estructura sería una mala idea.

Livius
fuente
precisa y al punto de respuesta.
Subhash C. Davar
Gracias Livius. ¿La reducción de los efectos aleatorios es similar a hacer empíricos Bayes? En caso afirmativo, ¿tendría sentido reducir aún más un modelo de efectos aleatorios con la regularización L2 / Bayesiana en la parte superior? Mi objetivo es clasificar los grupos por BLUP y usar la clasificación en un modelo de predicción de la siguiente etapa.
Paman Gujral
Estoy construyendo un modelo predictivo en un conjunto de datos de atención médica a nivel de episodio que contiene múltiples episodios de hospital por ID de miembro. La mayoría de los miembros tienen menos de 5 episodios. Creo que este es un caso en el que una regresión de lazo o cresta aplicada a los efectos fijos, más un efecto aleatorio para el campo de ID de miembro, sería apropiado.
RobertF
1
@PamanGujral, quizás desee ver "Estimación empírica de Bayes de parámetros de efectos aleatorios en modelos de regresión logística de efectos mixtos" por Ten Have y Localio
AdamO
"Los modelos de efectos mixtos son generalmente más difíciles de ajustar ..." Si el objetivo es dar cuenta de la correlación entre los registros que comparten la misma ID, y hay miles o millones de ID únicas, agregar un término de intercepción aleatorio simple a la fórmula de regresión utilizando la fórmula que figura en la pregunta del OP parece razonable y bastante simple primer paso. Solo está estimando dos parámetros en lugar de un término de efecto fijo para cada ID único menos uno, lo que ahorra muchos más grados de libertad.
RobertF