En mi clase de aprendizaje automático, aprendimos cómo la regresión LASSO es muy buena para realizar la selección de funciones, ya que utiliza la regularización .
Mi pregunta: ¿las personas normalmente usan el modelo LASSO solo para hacer la selección de funciones (y luego proceden a volcar esas funciones en un modelo de aprendizaje automático diferente), o suelen usar LASSO para realizar tanto la selección de funciones como la regresión real?
Por ejemplo, suponga que desea hacer una regresión de cresta, pero cree que muchas de sus características no son muy buenas. ¿Sería prudente ejecutar LASSO, tomar solo las características que no están casi cerradas por el algoritmo y luego usar solo aquellas para volcar sus datos en un modelo de regresión de crestas? De esta manera, obtiene el beneficio de la regularización para realizar la selección de funciones, pero también el beneficio de la regularización para reducir el sobreajuste. (Sé que esto básicamente equivale a Regresión neta elástica, pero parece que no necesita tener los términos y en la función objetivo de regresión final).
Además de la regresión, ¿es esta una estrategia inteligente al realizar tareas de clasificación (utilizando SVM, redes neuronales, bosques aleatorios, etc.)?
Respuestas:
Casi cualquier enfoque que haga alguna forma de selección de modelo y luego realice análisis adicionales como si no hubiera sucedido previamente una selección de modelo, generalmente tiene malas proporciones. A menos que existan argumentos teóricos convincentes respaldados por evidencia de, por ejemplo, estudios de simulación extensivos para tamaños de muestra realistas y proporciones de características versus tamaño de muestra para mostrar que esta es una excepción, es probable que dicho enfoque tenga propiedades insatisfactorias. No conozco ninguna evidencia positiva de este enfoque, pero quizás alguien más sí. Dado que existen alternativas razonables que logran todos los objetivos deseados (por ejemplo, la red elástica), este enfoque es difícil de justificar utilizando un enfoque ad-hoc tan sospechoso.
fuente
Además de todas las respuestas anteriores: es posible calcular una prueba de permutación chi2 exacta para tablas 2x2 y rxc. En lugar de comparar nuestro valor observado de la estadística de chi-cuadrado con una distribución asintótica de chi-cuadrado, necesitamos compararlo con la distribución exacta de permutación. Necesitamos permutar nuestros datos de todas las formas posibles manteniendo los márgenes de fila y columna constantes. Para cada conjunto de datos permutado, calculamos las estadísticas de chi2. Luego comparamos nuestro chi2 observado con las estadísticas de chi2 (ordenadas). La clasificación del estadístico de prueba real entre los estadísticos de prueba de chi2 permutado da un valor p.
fuente