¿Cuál es la selección de variables / características que prefiere para la clasificación binaria cuando hay muchas más variables / características que observaciones en el conjunto de aprendizaje? El objetivo aquí es discutir cuál es el procedimiento de selección de características que reduce mejor el error de clasificación.
Podemos corregir las anotaciones para mantener la coherencia: para , deje que sea el conjunto de observaciones de aprendizaje del grupo . Entonces es el tamaño del conjunto de aprendizaje. Establecemos para que sea el número de características (es decir, la dimensión del espacio de características). Supongamos que x [i] denota la coordenada i -ésima de x \ in \ mathbb {R} ^ p .
Proporcione referencias completas si no puede dar los detalles.
EDITAR (actualizado continuamente): procedimientos propuestos en las respuestas a continuación
- Selección codiciosa hacia adelante Procedimiento de selección variable para clasificación binaria
- Procedimiento de selección de variables de eliminación hacia atrás para clasificación binaria
- Escaneo de metrópolis / MCMC Procedimiento de selección variable para clasificación binaria
- regresión logística penalizada Procedimiento de selección variable para clasificación binaria
Como esta es una wiki comunitaria, puede haber más discusión y actualización.
Tengo un comentario: en cierto sentido, todos dan un procedimiento que permite ordenar las variables pero no la selección de variables (son bastante evasivos sobre cómo seleccionar el número de características, supongo que todos usan la validación cruzada). ¿Pueden mejorar? Las respuestas en esta dirección? (como se trata de una wiki comunitaria, no necesita ser el redactor de respuestas para agregar información sobre cómo seleccionar el número de variables. He abierto una pregunta en esta dirección aquí Validación cruzada en una dimensión muy alta (para seleccionar el número de variables utilizadas en clasificación dimensional muy alta) )
Respuestas:
Un enfoque muy popular es la regresión logística penalizada, en la que uno maximiza la suma de la probabilidad de registro y un término de penalización que consiste en la norma L1 ("lazo"), la norma L2 ("cresta"), una combinación de los dos ("elástico"), o una penalización asociada a grupos de variables ("lazo de grupo"). Este enfoque tiene varias ventajas:
fuente
Tengo una ligera preferencia por los bosques aleatorios de Leo Breiman y Adele Cutleer por varias razones:
Algunos autores argumentaron que funcionaba tan bien como SVM o máquinas de refuerzo de gradiente penalizadas (ver, por ejemplo, Cutler et al., 2009, para el último punto).
Una cobertura completa de sus aplicaciones o ventajas puede estar fuera del tema, por lo que sugiero los Elementos de aprendizaje estadístico de Hastie et al. (cap. 15) y Sayes et al. (2007) para lecturas adicionales.
Por último, pero no menos importante, tiene una buena implementación en R, con el paquete randomForest . Otros paquetes de R también lo extienden o lo usan, por ejemplo, party y caret .
Referencias
Cutler, A., Cutler, DR, y Stevens, JR (2009). Métodos basados en árboles, en Análisis de datos de alta dimensión en la investigación del cáncer , Li, X. y Xu, R. (eds.), Pp. 83-101, Springer.
Saeys, Y., Inza, I. y Larrañaga, P. (2007). Una revisión de las técnicas de selección de características en bioinformática. Bioinformática , 23 (19) : 2507-2517.
fuente
Escaneo de metrópolis / MCMC
dE
la diferencia el error en el nuevo conjunto menos el error en el conjunto anterior.min(1;exp(-beta*dE))
acepte este cambio, de lo contrario rechazarlo e intentar otro cambio aleatorio.Puede extenderlo con un control más sabio del
beta
parámetro. La forma más simple es usar recocido simulado cuando aumentabeta
(baja la temperatura en analogía física) a lo largo del tiempo para reducir las fluctuaciones y llevar el algoritmo al mínimo. Más difícil es usar el intercambio de réplicas .fuente
Si solo está interesado en el rendimiento de generalización, probablemente sea mejor no realizar ninguna selección de funciones y utilizar la regularización (por ejemplo, regresión de cresta). Ha habido varios desafíos abiertos en la comunidad de aprendizaje automático sobre la selección de características, y los métodos que dependen de la regularización en lugar de la selección de características generalmente funcionan al menos tan bien, si no mejor.
fuente
Avariciosa selección.
Los pasos para este método son:
fuente
Eliminación hacia atrás.
Comience con el conjunto completo, luego capacite iterativamente al clasificador en las características restantes y elimine la característica con la menor importancia, pare cuando el error del clasificador aumente rápidamente / se vuelva inaceptable.
La importancia se puede obtener incluso eliminando iterativamente cada característica y verificando el aumento del error o adaptándolo desde el clasificador si lo produce (como en el caso de Random Forest).
fuente
(n - k - p) / (k - 1) * ...
conn
el número de observaciones,k
el número de clases (2 aquí) yp
el número de variables.n - 2 - p < 0
cuándon < p + 2
(que es el caso aquí) que conduce aF < 0
. ¿No sería eso un problema?