¿Por qué usar el lazo grupal en lugar del lazo?

13

He leído que el lazo de grupo se usa para la selección de variables y la dispersión en un grupo de variables. Quiero saber la intuición detrás de esta afirmación.

  • ¿Por qué se prefiere el lazo grupal al lazo?
  • ¿Por qué la ruta de solución de lazo grupal no es lineal por partes?
Vendetta
fuente
1
Lo que entiendo de Yuan y Lin (2006) es que el lazo está diseñado para seleccionar variables individuales, no la selección de factores. Por lo tanto, el lazo aborda el problema ANOVA, donde el objetivo es seleccionar los principales efectos e interacciones importantes para una predicción precisa que equivale a la selección de grupos de variables. El otro ejemplo es el modelo aditivo con polinomio donde cada componente se expresa como una combinación lineal de funciones básicas de variables medidas originales
Vendetta

Respuestas:

11

Intuitivamente hablando, el lazo grupal se puede preferir al lazo ya que nos proporciona un medio para incorporar (un cierto tipo de) información adicional en nuestra estimación del coeficiente verdadero . Como escenario extremo, teniendo en cuenta lo siguiente:β

Con , coloque como soporte de . Considere el estimador "oráculo" que es el lazo de grupo con dos grupos, uno el verdadero soporte y Uno el complemento. Deje que sea ​​el valor más pequeño de que hace que . Debido a la naturaleza de la penalización de lazo de grupo, sabemos que en mueve de a (para algunos pequeñosyN(Xβ,σ2I)S={j:βj0}β

β^=argminβyXβ22+λ(|S|1/2βS2+(p|S|)1/2βSC2),
λmaxλβ^=0λλmaxλmaxϵϵ>0 ), exactamente un grupo entrará en apoyo de , que se considera popularmente como una estimación para . Debido a nuestra agrupación, con alta probabilidad, el grupo seleccionado será , y habremos hecho un trabajo perfecto.β^SS

En la práctica, no seleccionamos los grupos tan bien. Sin embargo, los grupos, a pesar de ser más finos que el escenario extremo anterior, aún nos ayudarán: la elección aún se haría entre un grupo de covariables verdaderas y un grupo de covariables falsas. Todavía estamos prestando fuerza.

Esto se formaliza aquí . En algunas condiciones, muestran que el límite superior del error de predicción del lazo del grupo es menor que el límite inferior del error de predicción del lazo simple. Es decir, demostraron que la agrupación hace que nuestra estimación sea mejor.

Para su segunda pregunta: la penalización de lazo (normal) es lineal por partes, y esto da lugar a la ruta de solución lineal por partes. Intuitivamente, en el caso de lazo grupal, la penalización ya no es lineal por partes, por lo que ya no tenemos esta propiedad. Aquí hay una gran referencia sobre la linealidad por partes de las rutas de solución . Vea su propuesta 1. Deje y . Muestran que la ruta de solución del lazo del grupo es lineal si y solo si es constante por partes. Por supuesto, no lo es, ya que nuestra penalización tiene una curvatura global.L(β)=yXβ22J(β)=gG|g|1/2βg2

(2L(β^)+λ2J(β^))1J(β^)
J
usuario795305
fuente
2
Tiene mucho sentido ahora. Muchas gracias por tu respuesta.
Vendetta
4

La respuesta de Ben es el resultado más general. Pero la respuesta intuitiva a la OP está motivada por el caso de los predictores categóricos, que generalmente se codifican como variables ficticias múltiples: una para cada categoría. En muchos análisis tiene sentido considerar estas variables ficticias (que representan un predictor categórico) juntas en lugar de por separado.

Si tiene una variable categórica con, digamos, cinco niveles, un lazo directo podría dejar dos entradas y tres salidas. ¿Cómo manejas esto de una manera basada en principios? ¿Decidir votar? ¿Usar literalmente las variables ficticias en lugar de las categóricas más significativas? ¿Cómo afecta su codificación ficticia a sus elecciones?

Como dicen en la introducción de Lazo grupal para la regresión logística , menciona:

Ya para el caso especial de la regresión lineal cuando no solo están presentes predictores (factores) continuos sino también categóricos, la solución de lazo no es satisfactoria ya que solo selecciona variables ficticias individuales en lugar de factores completos. Además, la solución de lazo depende de cómo se codifican las variables ficticias. Elegir diferentes contrastes para un predictor categórico producirá diferentes soluciones en general.

Como señala Ben, también hay vínculos más sutiles entre los predictores que podrían indicar que deberían estar dentro o fuera juntos. Pero las variables categóricas son el elemento secundario del lazo grupal.

Wayne
fuente
@Ben: Hmmm ... Realmente no puedo entender el primer comentario del OP. ¿Parece que es una respuesta a un comentario ahora eliminado? La pregunta en sí y su título, que es lo que leerán la mayoría de los espectadores, parece ser una pregunta general. Ciertamente eliminaré mi respuesta si la pregunta y el título se cambian a algo sobre "¿Qué aplicaciones no obvias existen para agrupar el lazo más allá del caso de las variables categóricas?"
Wayne
Bueno. ¡Me gusta su punto de vista sobre cómo usar el lazo (normal) en los factores hace que las estimaciones dependan de la codificación de los factores! Anteriormente pensé que el lazo grupal nos daba una especie de "escasez de medida" en lugar de una "escasez de parámetros" (es decir, deberíamos medir el factor o no; todos los niveles deberían seleccionarse o ninguno)
User795305