Los modelos penalizados se pueden usar para estimar modelos donde el número de parámetros es igual o incluso mayor que el tamaño de la muestra. Esta situación puede surgir en modelos log-lineales de grandes tablas dispersas de datos categóricos o de conteo. En estos entornos, a menudo también es deseable o útil colapsar las tablas combinando niveles de un factor donde esos niveles no son distinguibles en términos de cómo interactúan con otros factores. Dos preguntas:
- ¿Hay alguna manera de usar modelos penalizados como LASSO o red elástica para probar la colapsabilidad de los niveles dentro de cada factor?
- Si la respuesta a la primera pregunta es sí, ¿puede y debe configurarse de tal manera que el colapso de los niveles y la estimación de los coeficientes del modelo ocurran en un solo paso?
Respuestas:
Es posible. Podemos usar una variante del lazo fusionado para lograr esto.
Podemos utilizar el estimador β = arg min β - 1
Tenga en cuenta que es la función de pérdida para los modelos log-lineales.- 1norte∑nortei = 1( yyoβTXyo- eβTXyo)
Esto fomenta que los coeficientes dentro de un grupo sean iguales. Esta igualdad de coeficientes es equivalente al colapso de los niveles y k t h del factor juntos. En el caso de cuando β j = 0 , que es equivalente a colapsar la j t h a nivel con el nivel de referencia. Los parámetros de ajuste λ g pueden tratarse como constantes, pero esto si solo hay unos pocos factores, podría ser mejor tratarlos por separado.jt h kt h β^j= 0 jt h λsol
El estimador es un minimizador de una función convexa, por lo que se puede calcular de manera eficiente a través de solucionadores arbitrarios. Es posible que si un factor tiene muchos, muchos niveles, estas diferencias por pares se salgan de control; en este caso, será necesario conocer más estructura sobre posibles patrones de colapso.
¡Tenga en cuenta que todo esto se logra en un solo paso! ¡Esto es parte de lo que hace que los estimadores tipo lazo sean tan geniales!
fuente