¿Qué causa que el lazo sea inestable para la selección de funciones?

12

En la detección comprimida, existe una garantía de teorema de que tiene una solución dispersa única c (consulte el apéndice para obtener más detalles).

argminc1subject to y=Xc
c

¿Existe un teorema similar para el lazo? Si existe tal teorema, no solo garantizará la estabilidad del lazo, sino que también le proporcionará una interpretación más significativa:

el lazo puede descubrir el vector de coeficiente de regresión disperso c que se usa para generar la respuesta y por y=Xc .

Hay dos razones por las que hago esta pregunta:

  1. Creo que 'el lazo favorece una solución escasa' no es una respuesta a por qué usar el lazo para la selección de funciones, ya que ni siquiera podemos decir cuál es la ventaja de las funciones que seleccionamos.

  2. Aprendí que el lazo es conocido por ser inestable para la selección de funciones. En la práctica, tenemos que ejecutar muestras de arranque para evaluar su estabilidad. ¿Cuál es la razón más crucial que causa esta inestabilidad?


Apéndice:

Dado XN×M=(x1,,xM) . c es un vector disperso Ω ( ΩM ). El proceso y=Xc genera la respuesta y . Si X tiene el NSP (propiedad de espacio nulo) de orden Ω y la matriz de covarianza de X no tiene un valor propio cercano a cero, habrá una solución única para

argminc1subject to y=Xc
que es exactamente la c que da y .

Lo que este teorema también dice es que si no tiene el NSP de orden , simplemente no tiene sentido resolver .XΩargminc:y=Xcc1


EDITAR:

Después de recibir estas excelentes respuestas, me di cuenta de que estaba confundido cuando hacía esta pregunta.

Por qué esta pregunta es confusa:

Leí un artículo de investigación en el que tenemos que decidir cuántas características (columnas) tendrá la matriz de diseño (las características auxiliares se crean a partir de las características principales). Dado que es un problema típico de , se espera que esté bien construido para que la solución al lazo pueda ser una buena aproximación de la solución dispersa real.XN×Mn<pD

El razonamiento se basa en el teorema que mencioné en el apéndice: si buscamos encontrar una solución dispersa , es mejor que tenga el NSP de orden .ΩcXΩ

Para una matriz general , si se viola , entoncesN×MN>CΩlnM

no es posible una recuperación estable y robusta de de ycDP

D corresponde a , corresponde aXPy

... como se esperaba de la relación , la selección del descriptor se vuelve más inestable, es decir, para diferentes conjuntos de entrenamiento, el descriptor seleccionado a menudo difiere ...N=CΩlnM

La segunda cita es la parte que me confunde. Me parece que cuando se viola la desigualdad, no es solo que la solución sea no única (no mencionada), sino que el descriptor también se volverá más inestable.

meTchaikovsky
fuente
2
Solo por el contexto, el problema de optimización que escribe al comienzo de su Q se llama "búsqueda básica". Si reemplaza igualdad por igualdad aproximada (hasta algún error de L2), entonces se llama "eliminación de ruido de búsqueda de base". La eliminación de ruido de búsqueda de base es matemáticamente equivalente al lazo. y=XcyXc
ameba dice Reinstate Monica
Un conjunto útil de diapositivas (pero no fácil) se encuentra aquí: pages.iu.edu/~dajmcdon/research/talks/lasso.pdf y el teorema de no hay almuerzo gratis users.ece.utexas.edu/~cmcaram/pubs/ XuCaramanisMannor.NFL.pdf
Xavier Bourret Sicotte
El teorema que cita es sobre la unicidad. Su pregunta es confusa porque la unicidad no está necesariamente relacionada con la estabilidad.
ameba dice Reinstate Monica
2
Sí, creo que el OP está algo confundido y la pregunta no está clara, por lo tanto, las diferentes respuestas posibles ... La singularidad es para un solo conjunto de puntos de datos, la estabilidad se aplica para la validación cruzada, o bootstrap, o nuevos puntos de datos
Xavier Bourret Sicotte

Respuestas:

8

ACTUALIZAR

Vea esta segunda publicación para conocer los comentarios de McDonald's sobre mi respuesta donde la noción de consistencia del riesgo está relacionada con la estabilidad.


1) Singularidad vs Estabilidad

Su pregunta es difícil de responder porque menciona dos temas muy diferentes: singularidad y estabilidad .

  • Intuitivamente, una solución es única si se le da un conjunto de datos fijo, el algoritmo siempre produce los mismos resultados. La respuesta de Martin cubre este punto con gran detalle.

  • La estabilidad, por otro lado, puede entenderse intuitivamente como una para la cual la predicción no cambia mucho cuando los datos de entrenamiento se modifican ligeramente.

La estabilidad se aplica a su pregunta porque la selección de características de Lazo se realiza (a menudo) a través de Validación cruzada, por lo tanto, el algoritmo de Lazo se realiza en diferentes pliegues de datos y puede producir resultados diferentes cada vez.

La estabilidad y el teorema de no almuerzo gratis

Usando la definición de aquí si definimos la estabilidad Uniforme como:

Un algoritmo tiene una estabilidad uniforme con respecto a la función de pérdida si se cumple lo siguiente:βV

SZm  i{1,...,m},  sup|>V(fs,z)V(fS|i,z)|  β

Considerado como una función de , el término se puede escribir como . Decimos que el algoritmo es estable cuando disminuye como .mββmβm1m

entonces el "Teorema de no almuerzo gratis, Xu y Caramis (2012)" establece que

Si un algoritmo es escaso , en el sentido de que identifica características redundantes, entonces ese algoritmo no es estable (y la estabilidad uniforme enlazada no llega a cero). [...] Si un algoritmo es estable, entonces no hay esperanza de que sea escaso. (páginas 3 y 4)β

Por ejemplo, la regresión regularizada es estable y no identifica características redundantes, mientras que la regresión regularizada (Lazo) es inestable. L2L1

Un intento de responder tu pregunta

Creo que 'el lazo favorece una solución escasa' no es una respuesta a por qué usar el lazo para la selección de funciones

  • No estoy de acuerdo, la razón por la cual Lasso se usa para la selección de características es que proporciona una solución escasa y se puede demostrar que tiene la propiedad IRF, es decir, identifica características redundantes.

¿Cuál es la razón más importante que causa esta inestabilidad?

  • El teorema del almuerzo libre

Ir más lejos

Esto no quiere decir que la combinación de Cross Validation y Lasso no funcione ... de hecho, se ha demostrado experimentalmente (y con mucha teoría de apoyo) que funciona muy bien en diversas condiciones. Las palabras clave principales aquí son consistencia , riesgo, desigualdades de oráculo, etc.

Las siguientes diapositivas y documentos de McDonald y Homrighausen (2013) describen algunas condiciones bajo las cuales la selección de características de lazo funciona bien: diapositivas y papel: "El lazo, la persistencia y la validación cruzada, McDonald y Homrighausen (2013)" . El propio Tibshirani también publicó un gran conjunto de notas sobre sparcity , regresión lineal

Las diversas condiciones para la consistencia y su impacto en Lasso es un tema activo de investigación y definitivamente no es una pregunta trivial. Puedo señalar algunos trabajos de investigación que son relevantes:

Xavier Bourret Sicotte
fuente
1
Gracias por su respuesta integral! ¡El conjunto de diapositivas que proporciona es excelente!
meTchaikovsky
1
Todavía estoy tratando de procesar esta definición de estabilidad. Mi traducción es que "un algoritmo es estable si el cambio de la función de error / pérdida en la validación cruzada omitida tiene un límite superior que disminuye como " cuando aumentamos el número de pliegues / conjuntos de prueba "β1m , espero haberlo entendido correctamente. Me pregunto por qué es una propiedad deseable para que el lazo funcione bien (o, más precisamente, me pregunto si es una propiedad necesaria).
Sextus Empiricus
1
Sí, excepto que m es el número de puntos de datos. mire aquí la página 7 para ver un límite probabilístico: math.arizona.edu/~hzhang/math574m/Read/LOOtheory.pdf: el punto es que no hay límite en la tabla proporcionada al aumentar el tamaño del conjunto de datos, lo que significa que el algoritmo puede saltar a hipótesis lejanas funciona dependiendo de un conjunto de datos particular. Es por eso que se proponen condiciones alternativas, que se relacionan con la distribución subyacente y la estructura de correlación (creo), pero necesitarían ayuda para aclararlas
Xavier Bourret Sicotte
Otra noción importante es la de la consistencia, como se explica aquí, por ejemplo: stat.ethz.ch/~nicolai/stability.pdf : cómo la estabilidad y la consistencia están vinculadas no está claro, pero parece estar sujeto a una investigación activa, por ejemplo, cbcl.mit.edu/publications /ps/mukherjee-AImemoOctNov.pdf
Xavier Bourret Sicotte
¡Buena respuesta! ¿Podría actualizar también algunos enlaces con descripciones más detalladas en caso de que los enlaces en sí mismos se bloqueen en el futuro? (Ya hice uno para ti.)
Richard Hardy
7

Comentarios de Daniel J. McDonald

Profesor asistente en la Universidad de Indiana Bloomington, autor de los dos documentos mencionados en la respuesta original de Xavier Bourret Sicotte .

Su explicación es, en general, bastante correcta. Algunas cosas que señalaría:

  1. Nuestro objetivo en la serie de documentos sobre CV y ​​lazo fue demostrar que "Lasso + Cross Validation (CV)" funciona tan bien como "Lasso + óptimo "λ . En particular, queríamos mostrar que las predicciones también lo hacen (sin modelo). Para hacer declaraciones sobre la recuperación correcta de los coeficientes (encontrar los correctos no dispersos), uno debe asumir una verdad dispersa, que no queríamos hacer.

  2. La estabilidad algorítmica implica la coherencia del riesgo (primero probado por Bousquet y Elisseeff, creo). Por consistencia de riesgo, quiero decir queva a cero donde f es o el mejor predictor dentro de alguna clase si la clase está mal especificada. Sin embargo, esta es solo una condición suficiente. Se menciona en las diapositivas a las que se vinculó como, esencialmente, "una posible técnica de prueba que no funcionará, ya que el lazo no es estable".||f^(X)f(X)||E[Y|X]

  3. La estabilidad solo es suficiente pero no necesaria. Pudimos demostrar que, en algunas condiciones, "lasso + CV" predice así como "lasso + óptimo ". El documento que cita ofrece los supuestos más débiles posibles (los de la diapositiva 16, que permiten ), pero utiliza la forma restringida de lazo en lugar de la versión lagrangiana más común. Otro documento ( http://www3.stat.sinica.edu.tw/statistica/J27N3/J27N34/J27N34.html ) usa la versión lagrangiana. También muestra que, en condiciones mucho más fuertes, la selección del modelo también funcionará. Un documento más reciente ( https://arxiv.org/abs/1605.02214 ) de otras personas afirma mejorar estos resultados (no lo he leído con cuidado).λp>n

  4. En general, debido a que el lazo (o cualquier algoritmo de selección) no es estable, uno necesita un análisis más cuidadoso y / o suposiciones fuertes para demostrar que "algoritmo + CV" seleccionará el modelo correcto. No conozco las condiciones necesarias, aunque esto sería extremadamente interesante en general. No es demasiado difícil demostrar que para lambda fija, el predictor de lazo es localmente Lipschitz en el vector (creo que uno o más de los documentos de Ryan Tibshirani hacen esto). Si uno también pudiera argumentar que esto es cierto en , esto sería muy interesante y relevante aquí.YXi

La lección principal que me gustaría añadir a su respuesta: “estabilidad” implica "riesgo-consistencia” o ‘precisión de la predicción’ También puede implicar ‘la consistencia de estimación de parámetros’ en más supuestos Pero los medios teorema de almuerzo no es libre ‘selección’.. "no estable". El lazo no es estable incluso con lambda fija. Es ciertamente inestable, por lo tanto, cuando se combina con CV (de cualquier tipo). Sin embargo, a pesar de la falta de estabilidad, sigue siendo consistente con el riesgo y la selección es consistente con o sin CV: la singularidad es irrelevante aquí.

Xavier Bourret Sicotte
fuente
5

El lazo, a diferencia de la regresión de Ridge (ver, por ejemplo, Hoerl y Kennard, 1970; Hastie et al., 2009) no siempre tiene una solución única, aunque generalmente sí la tiene. Depende del número de parámetros en el modelo, de si las variables son continuas o discretas y del rango de su matriz de diseño. Las condiciones para la unicidad se pueden encontrar en Tibshirani (2013).

Referencias

Hastie, T., Tibshirani, R. y Friedman, J. (2009). Los elementos del aprendizaje estadístico . Serie Springer en estadísticas. Springer, Nueva York, 11ª impresión, 2ª edición.

Hoerl, AE, y Kennard, RW (1970). Regresión de cresta: estimación sesgada para problemas no ortogonales. Technometrics , 12 (1), 55-67.

Tibshirani, RJ (2013). El problema del lazo y la singularidad. Electronic Journal of Statistics , 7, 1456-1490.

Phil
fuente
@ ¡Gracias! ¿Puede agregar un breve resumen de las referencias que proporciona?
meTchaikovsky
Hasite y col. (2009) es un libro que cubre muchos temas, la regresión de Lasso y Ridge entre ellos. Vale la pena leerlo y se puede descargar de la página de inicio de Hastie: web.stanford.edu/~hastie/ElemStatLearn/download.html Hoerl & Kennard (1970) es una referencia clásica de regresión de Ridge y probablemente no sea relevante para su pregunta directamente, otros que leer sobre la regresión de Ridge. Tibshirani (2013) contiene información sobre cuándo el lazo tiene una solución única (y cuándo tiene una cantidad infinita de soluciones).
Phil
3

Lo que causa la no unicidad.

Para los vectores (donde es un signo que indica si el cambio de aumentará o disminuirá ), siempre que sean dependientes por afinidad:sixisicic1

αisixi=0andαi=0

entonces hay un número infinito de combinaciones que no cambian la solución y la norma .ci+γαiXcc1

Por ejemplo:

y=[11]=[210111][c1c2c3]=Xc

tiene para las soluciones:c1=1

[c1c2c3]=[010]+γ[121]

con0γ12

Podemos reemplazar el vector usandox2x2=0.5x1+0.5x3


Situaciones sin esta condición

En el artículo de Tibshirani (de la respuesta de Phil) se describen tres condiciones suficientes para que el lazo tenga una solución única.

  1. Linealmente independiente Cuando el espacio nulo es nulo o equivalente cuando el rango de es igual al número de columnas (M). En ese caso, no tiene combinaciones lineales como las anteriores.XX
  2. Afines independientes cuando las columnas están en posición general.Xs

    Es decir, ninguna columna representa puntos en un plano dimensional . Un plano dimensional k-2 puede ser parametrizado por cualquier punto como con . Con un punto en este mismo plano, tendría las condiciones conkk2k1αisixiαi=1ksjxjαisixiαi=0

    Tenga en cuenta que en el ejemplo las columnas , y están en una sola línea. (Sin embargo, es un poco incómodo aquí porque los signos pueden ser negativos, por ejemplo, la matriz solo tiene tampoco una solución única)x1x2x3[[21][11][01]]

  3. Cuando las columnas son de una distribución continua, entonces es poco probable (probabilidad casi cero) que tenga columnas de no estén en posición general.XX

    En contraste con esto, si las columnas son una variable categórica, entonces esta probabilidad no es necesariamente casi cero. La probabilidad de que una variable continua sea igual a un conjunto de números (es decir, los planos correspondientes al tramo afín de los otros vectores) es "casi" cero. Pero, este no es el caso para las variables discretas.X

Sexto empírico
fuente
+1 pero creo que lo que se entiende por inestable en las discusiones recientes está relacionado con la selección de características mediante validación cruzada en presencia de características correlacionadas
Xavier Bourret Sicotte
@XavierBourretSicotte, ¿quiere decir que incluso cuando hay una solución única, el proceso de selección puede ser inestable debido a características correlacionadas que agregan problemas para encontrar (numéricamente) esa solución única? Es un poco confuso porque la pregunta hace, por un lado, sobre la estabilidad y, por otro lado, sobre la singularidad.
Sextus Empiricus
Sí, eso es lo que quiero decir, no necesariamente debido a la inestabilidad numérica sino a las diferencias inherentes en los pliegues de los datos (durante el CV) que conducen a diferentes soluciones para diferentes valores en los pliegues. En podría ser aún peor cuando bootstrappingλ
Xavier Bourret Sicotte
@XavierBourretSicotte Actualmente no tengo una imagen clara e intuitiva de por qué se supone que esto (diferentes soluciones para diferentes y conjuntos de entrenamiento) es inestable. Supongo que podrías publicar esto como respuesta y explicarlo. λ
Sextus Empiricus
@Martijn Weterings ¡Gracias! Todavía tengo tres preguntas: 1. ¿Cómo detecto una dependencia afín? ¿Debo saber si son independientes ( math.stackexchange.com/q/82189 )? 2. ¿Cómo debo determinar en la práctica? 3. ¿Qué significa una "posición general" de ? {v1v0,v2v0,,vkv0}siX
meTchaikovsky