He leído que el lazo de grupo se usa para la selección de variables y la dispersión en un grupo de variables. Quiero saber la intuición detrás de esta afirmación.
- ¿Por qué se prefiere el lazo grupal al lazo?
- ¿Por qué la ruta de solución de lazo grupal no es lineal por partes?
regression
feature-selection
lasso
regularization
Vendetta
fuente
fuente
Respuestas:
Intuitivamente hablando, el lazo grupal se puede preferir al lazo ya que nos proporciona un medio para incorporar (un cierto tipo de) información adicional en nuestra estimación del coeficiente verdadero . Como escenario extremo, teniendo en cuenta lo siguiente:β∗
Con , coloque como soporte de . Considere el estimador "oráculo" que es el lazo de grupo con dos grupos, uno el verdadero soporte y Uno el complemento. Deje que sea el valor más pequeño de que hace que . Debido a la naturaleza de la penalización de lazo de grupo, sabemos que en mueve de a (para algunos pequeñosy∼N(Xβ∗,σ2I) S={j:β∗j≠0} β∗
En la práctica, no seleccionamos los grupos tan bien. Sin embargo, los grupos, a pesar de ser más finos que el escenario extremo anterior, aún nos ayudarán: la elección aún se haría entre un grupo de covariables verdaderas y un grupo de covariables falsas. Todavía estamos prestando fuerza.
Esto se formaliza aquí . En algunas condiciones, muestran que el límite superior del error de predicción del lazo del grupo es menor que el límite inferior del error de predicción del lazo simple. Es decir, demostraron que la agrupación hace que nuestra estimación sea mejor.
Para su segunda pregunta: la penalización de lazo (normal) es lineal por partes, y esto da lugar a la ruta de solución lineal por partes. Intuitivamente, en el caso de lazo grupal, la penalización ya no es lineal por partes, por lo que ya no tenemos esta propiedad. Aquí hay una gran referencia sobre la linealidad por partes de las rutas de solución . Vea su propuesta 1. Deje y . Muestran que la ruta de solución del lazo del grupo es lineal si y solo si es constante por partes. Por supuesto, no lo es, ya que nuestra penalización tiene una curvatura global.L(β)=∥y−Xβ∥22 J(β)=∑g∈G|g|1/2∥βg∥2
fuente
La respuesta de Ben es el resultado más general. Pero la respuesta intuitiva a la OP está motivada por el caso de los predictores categóricos, que generalmente se codifican como variables ficticias múltiples: una para cada categoría. En muchos análisis tiene sentido considerar estas variables ficticias (que representan un predictor categórico) juntas en lugar de por separado.
Si tiene una variable categórica con, digamos, cinco niveles, un lazo directo podría dejar dos entradas y tres salidas. ¿Cómo manejas esto de una manera basada en principios? ¿Decidir votar? ¿Usar literalmente las variables ficticias en lugar de las categóricas más significativas? ¿Cómo afecta su codificación ficticia a sus elecciones?
Como dicen en la introducción de Lazo grupal para la regresión logística , menciona:
Como señala Ben, también hay vínculos más sutiles entre los predictores que podrían indicar que deberían estar dentro o fuera juntos. Pero las variables categóricas son el elemento secundario del lazo grupal.
fuente