En la detección comprimida, existe una garantía de teorema de que tiene una solución dispersa única c (consulte el apéndice para obtener más detalles).
¿Existe un teorema similar para el lazo? Si existe tal teorema, no solo garantizará la estabilidad del lazo, sino que también le proporcionará una interpretación más significativa:
el lazo puede descubrir el vector de coeficiente de regresión disperso que se usa para generar la respuesta por .
Hay dos razones por las que hago esta pregunta:
Creo que 'el lazo favorece una solución escasa' no es una respuesta a por qué usar el lazo para la selección de funciones, ya que ni siquiera podemos decir cuál es la ventaja de las funciones que seleccionamos.
Aprendí que el lazo es conocido por ser inestable para la selección de funciones. En la práctica, tenemos que ejecutar muestras de arranque para evaluar su estabilidad. ¿Cuál es la razón más crucial que causa esta inestabilidad?
Apéndice:
Dado . es un vector disperso ( ). El proceso genera la respuesta . Si tiene el NSP (propiedad de espacio nulo) de orden y la matriz de covarianza de no tiene un valor propio cercano a cero, habrá una solución única para
Lo que este teorema también dice es que si no tiene el NSP de orden , simplemente no tiene sentido resolver .
EDITAR:
Después de recibir estas excelentes respuestas, me di cuenta de que estaba confundido cuando hacía esta pregunta.
Por qué esta pregunta es confusa:
Leí un artículo de investigación en el que tenemos que decidir cuántas características (columnas) tendrá la matriz de diseño (las características auxiliares se crean a partir de las características principales). Dado que es un problema típico de , se espera que esté bien construido para que la solución al lazo pueda ser una buena aproximación de la solución dispersa real.
El razonamiento se basa en el teorema que mencioné en el apéndice: si buscamos encontrar una solución dispersa , es mejor que tenga el NSP de orden .
Para una matriz general , si se viola , entonces
no es posible una recuperación estable y robusta de de y
corresponde a , corresponde a
... como se esperaba de la relación , la selección del descriptor se vuelve más inestable, es decir, para diferentes conjuntos de entrenamiento, el descriptor seleccionado a menudo difiere ...
La segunda cita es la parte que me confunde. Me parece que cuando se viola la desigualdad, no es solo que la solución sea no única (no mencionada), sino que el descriptor también se volverá más inestable.
fuente
Respuestas:
ACTUALIZAR
Vea esta segunda publicación para conocer los comentarios de McDonald's sobre mi respuesta donde la noción de consistencia del riesgo está relacionada con la estabilidad.
1) Singularidad vs Estabilidad
Su pregunta es difícil de responder porque menciona dos temas muy diferentes: singularidad y estabilidad .
Intuitivamente, una solución es única si se le da un conjunto de datos fijo, el algoritmo siempre produce los mismos resultados. La respuesta de Martin cubre este punto con gran detalle.
La estabilidad, por otro lado, puede entenderse intuitivamente como una para la cual la predicción no cambia mucho cuando los datos de entrenamiento se modifican ligeramente.
La estabilidad se aplica a su pregunta porque la selección de características de Lazo se realiza (a menudo) a través de Validación cruzada, por lo tanto, el algoritmo de Lazo se realiza en diferentes pliegues de datos y puede producir resultados diferentes cada vez.
La estabilidad y el teorema de no almuerzo gratis
Usando la definición de aquí si definimos la estabilidad Uniforme como:
entonces el "Teorema de no almuerzo gratis, Xu y Caramis (2012)" establece que
Por ejemplo, la regresión regularizada es estable y no identifica características redundantes, mientras que la regresión regularizada (Lazo) es inestable.L2 L1
Un intento de responder tu pregunta
Ir más lejos
Esto no quiere decir que la combinación de Cross Validation y Lasso no funcione ... de hecho, se ha demostrado experimentalmente (y con mucha teoría de apoyo) que funciona muy bien en diversas condiciones. Las palabras clave principales aquí son consistencia , riesgo, desigualdades de oráculo, etc.
Las siguientes diapositivas y documentos de McDonald y Homrighausen (2013) describen algunas condiciones bajo las cuales la selección de características de lazo funciona bien: diapositivas y papel: "El lazo, la persistencia y la validación cruzada, McDonald y Homrighausen (2013)" . El propio Tibshirani también publicó un gran conjunto de notas sobre sparcity , regresión lineal
Las diversas condiciones para la consistencia y su impacto en Lasso es un tema activo de investigación y definitivamente no es una pregunta trivial. Puedo señalar algunos trabajos de investigación que son relevantes:
fuente
Comentarios de Daniel J. McDonald
Profesor asistente en la Universidad de Indiana Bloomington, autor de los dos documentos mencionados en la respuesta original de Xavier Bourret Sicotte .
fuente
El lazo, a diferencia de la regresión de Ridge (ver, por ejemplo, Hoerl y Kennard, 1970; Hastie et al., 2009) no siempre tiene una solución única, aunque generalmente sí la tiene. Depende del número de parámetros en el modelo, de si las variables son continuas o discretas y del rango de su matriz de diseño. Las condiciones para la unicidad se pueden encontrar en Tibshirani (2013).
Referencias
Hastie, T., Tibshirani, R. y Friedman, J. (2009). Los elementos del aprendizaje estadístico . Serie Springer en estadísticas. Springer, Nueva York, 11ª impresión, 2ª edición.
Hoerl, AE, y Kennard, RW (1970). Regresión de cresta: estimación sesgada para problemas no ortogonales. Technometrics , 12 (1), 55-67.
Tibshirani, RJ (2013). El problema del lazo y la singularidad. Electronic Journal of Statistics , 7, 1456-1490.
fuente
Lo que causa la no unicidad.
Para los vectores (donde es un signo que indica si el cambio de aumentará o disminuirá ), siempre que sean dependientes por afinidad:sixi si ci ∥c∥1
entonces hay un número infinito de combinaciones que no cambian la solución y la norma .ci+γαi Xc ∥c∥1
Por ejemplo:
tiene para las soluciones:∥c∥1=1
con0≤γ≤12
Podemos reemplazar el vector usandox2 x2=0.5x1+0.5x3
Situaciones sin esta condición
En el artículo de Tibshirani (de la respuesta de Phil) se describen tres condiciones suficientes para que el lazo tenga una solución única.
Afines independientes cuando las columnas están en posición general.Xs
Es decir, ninguna columna representa puntos en un plano dimensional . Un plano dimensional k-2 puede ser parametrizado por cualquier punto como con . Con un punto en este mismo plano, tendría las condiciones conk k−2 k−1 ∑αisixi ∑αi=1 k sjxj ∑αisixi ∑αi=0
Tenga en cuenta que en el ejemplo las columnas , y están en una sola línea. (Sin embargo, es un poco incómodo aquí porque los signos pueden ser negativos, por ejemplo, la matriz solo tiene tampoco una solución única)x1 x2 x3 [[21][11][−0−1]]
Cuando las columnas son de una distribución continua, entonces es poco probable (probabilidad casi cero) que tenga columnas de no estén en posición general.X X
En contraste con esto, si las columnas son una variable categórica, entonces esta probabilidad no es necesariamente casi cero. La probabilidad de que una variable continua sea igual a un conjunto de números (es decir, los planos correspondientes al tramo afín de los otros vectores) es "casi" cero. Pero, este no es el caso para las variables discretas.X
fuente