Los mejores métodos de selección de características para la regresión no paramétrica

10

Una pregunta para novatos aquí. Actualmente estoy realizando una regresión no paramétrica usando el paquete np en R. Tengo 7 características y usando un enfoque de fuerza bruta identifiqué las mejores 3. ¡Pero pronto tendré muchas más de 7 características!

Mi pregunta es cuáles son los mejores métodos actuales para la selección de características para la regresión no paramétrica. Y que si algún paquete implementa los métodos. Gracias.

jmmcnew
fuente
1
¿Qué quieres decir con "muchos más" 100? 1000? 10000? 100000?
robin girard
Probablemente tendré del orden de 100 características. Pero solo tengo unos minutos para tomar una decisión sobre el mejor subconjunto de funciones.
jmmcnew
1
¿Has probado el lazo o la red elástica? paquetes: lazo, glmnet. Esos métodos pueden "seleccionar" algunas variables sobre la marcha.
deps_stats

Respuestas:

3

A menos que la identificación de las variables más relevantes sea un objetivo clave del análisis, a menudo es mejor no hacer ninguna selección de características y utilizar la regularización para evitar un ajuste excesivo. La selección de funciones es un procedimiento complicado y es demasiado fácil sobrepasar el criterio de selección de funciones, ya que hay muchos grados de libertad. LASSO y la red elástica son un buen compromiso, logran la escasez mediante la regularización en lugar de mediante la selección directa de características, por lo que son menos propensos a esa forma particular de sobreajuste.

Dikran Marsupial
fuente
0

Lasso es realmente bueno. Las cosas simples como comenzar con ninguna, y agregarlas una por una ordenadas en 'utilidad' (mediante validación cruzada) también funcionan bastante bien en la práctica. Esto a veces se llama selección de avance progresivo por etapas.

Tenga en cuenta que el problema de selección de subconjunto es bastante independiente del tipo de clasificación / regresión. Es solo que los métodos no paramétricos pueden ser lentos y, por lo tanto, requieren métodos de selección más inteligentes.

El libro 'Los elementos del aprendizaje estadístico' de T. Hastie ofrece una buena visión general.

Señor White
fuente