Usar LASSO solo para la selección de funciones

10

En mi clase de aprendizaje automático, aprendimos cómo la regresión LASSO es muy buena para realizar la selección de funciones, ya que utiliza la regularización .l1

Mi pregunta: ¿las personas normalmente usan el modelo LASSO solo para hacer la selección de funciones (y luego proceden a volcar esas funciones en un modelo de aprendizaje automático diferente), o suelen usar LASSO para realizar tanto la selección de funciones como la regresión real?

Por ejemplo, suponga que desea hacer una regresión de cresta, pero cree que muchas de sus características no son muy buenas. ¿Sería prudente ejecutar LASSO, tomar solo las características que no están casi cerradas por el algoritmo y luego usar solo aquellas para volcar sus datos en un modelo de regresión de crestas? De esta manera, obtiene el beneficio de la regularización para realizar la selección de funciones, pero también el beneficio de la regularización para reducir el sobreajuste. (Sé que esto básicamente equivale a Regresión neta elástica, pero parece que no necesita tener los términos y en la función objetivo de regresión final).l1l2l1l2

Además de la regresión, ¿es esta una estrategia inteligente al realizar tareas de clasificación (utilizando SVM, redes neuronales, bosques aleatorios, etc.)?

Ryan
fuente
1
Sí, usar el lazo para la selección de características para otros modelos es una buena idea. Alternativamente, la selección de características basada en el árbol también se podría alimentar a otros modelos
karthikbharadwaj
1
El lazo solo realiza la selección de características en modelos lineales: no prueba las interacciones de orden superior o la no linealidad en los predictores. Para ver un ejemplo de cómo podría ser importante: stats.stackexchange.com/questions/164048/… Su millaje puede variar.
Sycorax dice Reinstate a Monica

Respuestas:

11

Casi cualquier enfoque que haga alguna forma de selección de modelo y luego realice análisis adicionales como si no hubiera sucedido previamente una selección de modelo, generalmente tiene malas proporciones. A menos que existan argumentos teóricos convincentes respaldados por evidencia de, por ejemplo, estudios de simulación extensivos para tamaños de muestra realistas y proporciones de características versus tamaño de muestra para mostrar que esta es una excepción, es probable que dicho enfoque tenga propiedades insatisfactorias. No conozco ninguna evidencia positiva de este enfoque, pero quizás alguien más sí. Dado que existen alternativas razonables que logran todos los objetivos deseados (por ejemplo, la red elástica), este enfoque es difícil de justificar utilizando un enfoque ad-hoc tan sospechoso.

Björn
fuente
3
de acuerdo ... el punto es que todo tiene que encajar dentro de un marco de validación cruzada ... por lo que debe hacer una validación cruzada anidada para hacer las dos regularizaciones separadas (de lo contrario, se encontrará con problemas), y la validación cruzada anidada está utilizando menos datos para cada parte.
seanv507
1

Además de todas las respuestas anteriores: es posible calcular una prueba de permutación chi2 exacta para tablas 2x2 y rxc. En lugar de comparar nuestro valor observado de la estadística de chi-cuadrado con una distribución asintótica de chi-cuadrado, necesitamos compararlo con la distribución exacta de permutación. Necesitamos permutar nuestros datos de todas las formas posibles manteniendo los márgenes de fila y columna constantes. Para cada conjunto de datos permutado, calculamos las estadísticas de chi2. Luego comparamos nuestro chi2 observado con las estadísticas de chi2 (ordenadas). La clasificación del estadístico de prueba real entre los estadísticos de prueba de chi2 permutado da un valor p.

Stats_Monkey
fuente
¿Podría agregar detalles a su respuesta, por favor? En su forma actual, no está claro cómo se calcularía la prueba exacta de chi2.
Antoine Vernet