Métodos penalizados para datos categóricos: combinación de niveles en un factor

Los modelos penalizados se pueden usar para estimar modelos donde el número de parámetros es igual o incluso mayor que el tamaño de la muestra. Esta situación puede surgir en modelos log-lineales de grandes tablas dispersas de datos categóricos o de conteo. En estos entornos, a menudo también es deseable o útil colapsar las tablas combinando niveles de un factor donde esos niveles no son distinguibles en términos de cómo interactúan con otros factores. Dos preguntas:

¿Hay alguna manera de usar modelos penalizados como LASSO o red elástica para probar la colapsabilidad de los niveles dentro de cada factor?
Si la respuesta a la primera pregunta es sí, ¿puede y debe configurarse de tal manera que el colapso de los niveles y la estimación de los coeficientes del modelo ocurran en un solo paso?

categorical-data lasso elastic-net log-linear many-categories andrewH
fuente

Este documento, doi.org/10.1177/1471082X16642560 , ofrece una buena visión general de lo que se ha hecho en esta área durante la última década más o menos.

Jorne Biccler

Nota: la penalidad que analizo a continuación es la ecuación 3.4 en el enlace de @JorneBiccler. (¡Es interesante ver que esta pregunta se ha considerado antes!)

user795305

Posible duplicado de variables categóricas

kjetil b halvorsen

¿Cómo podemos llamar a esto un duplicado de una pregunta que lo precedió?

Michael R. Chernick

Respuestas:

Es posible. Podemos usar una variante del lazo fusionado para lograr esto.

Podemos utilizar el estimador

\hat{β} = \arg min_{β} \frac{- 1}{norte} \sum_{yo = 1}^{norte} (y_{yo} β^{T} X_{yo} - {mi}^{β^{T} X_{yo}}) + \sum_{factores g} λ_{sol} (\sum_{j \in sol} El | β_{j} El | + \frac{1}{2} \sum_{j, k \in sol} El | β_{j} - β_{k} El |) .

$\hat{\beta} = \arg\min_{\beta} \frac{-1}{n} \sum_{i=1}^n \left(y_i \beta^T x_i - e^{\beta^T x_i} \right) + \sum_{\textrm{factors g}} \lambda_g \left(\sum_{j \in g} |\beta_j| + \frac{1}{2} \sum_{j,k \in g} |\beta_j - \beta_k| \right).$

Tenga en cuenta que es la función de pérdida para los modelos log-lineales. $\frac{-1}{n} \sum_{i=1}^n \left(y_i \beta^T x_i - e^{\beta^T x_i} \right)$

Esto fomenta que los coeficientes dentro de un grupo sean iguales. Esta igualdad de coeficientes es equivalente al colapso de los niveles y del factor juntos. En el caso de cuando , que es equivalente a colapsar la a nivel con el nivel de referencia. Los parámetros de ajuste pueden tratarse como constantes, pero esto si solo hay unos pocos factores, podría ser mejor tratarlos por separado. $j^{th}$ $k^{th}$ $\hat{\beta}_j=0$ $j^{th}$ $\lambda_g$

El estimador es un minimizador de una función convexa, por lo que se puede calcular de manera eficiente a través de solucionadores arbitrarios. Es posible que si un factor tiene muchos, muchos niveles, estas diferencias por pares se salgan de control; en este caso, será necesario conocer más estructura sobre posibles patrones de colapso.

¡Tenga en cuenta que todo esto se logra en un solo paso! ¡Esto es parte de lo que hace que los estimadores tipo lazo sean tan geniales!

$\|[-1 \, 1] \cdot [\beta_i \, \beta_j]'\|_1$ $\|[\beta_i \, \beta_j]\|_\infty$

usuario795305
fuente