Usé la regresión logística. Tengo seis características, quiero conocer las características importantes en este clasificador que influyen en el resultado más que otras características. Usé Information Gain pero parece que no depende del clasificador utilizado. ¿Existe algún método para clasificar las características según su importancia en función de un clasificador específico (como la regresión logística)? Cualquier ayuda sería muy apreciada.
logistic
feature-selection
ranking
regression-strategies
Chica azul
fuente
fuente
Respuestas:
Creo que la respuesta que estás buscando podría ser el algoritmo de Boruta . Este es un método de envoltura que mide directamente la importancia de las características en un sentido de "toda relevancia" y se implementa en un paquete R , que produce gráficos agradables, como dónde la importancia de cualquier característica está en el eje y y se compara con un nulo trazado en azul aquí. Esta publicación de blog describe el enfoque y le recomendaría que lo lea como una introducción muy clara.
fuente
Para comenzar a comprender cómo clasificar las variables por importancia para los modelos de regresión, puede comenzar con la regresión lineal. Un enfoque popular para clasificar la importancia de una variable en un modelo de regresión lineal es descomponer en contribuciones atribuidas a cada variable. Pero la importancia variable no es sencilla en la regresión lineal debido a las correlaciones entre las variables. Consulte el documento que describe el método PMD (Feldman, 2005) [ 3 ]. Otro enfoque popular es el promedio sobre los pedidos (LMG, 1980) [ 2 ].R2
No hay mucho consenso sobre cómo clasificar las variables para la regresión logística. Una buena visión general de este tema se da en [ 1 ], describe las adaptaciones de las técnicas de regresión lineal de importancia relativa utilizando Pseudo- para la regresión logística.R2
Una lista de los enfoques populares para clasificar la importancia de las características en los modelos de regresión logística son:
Referencias
fuente
Suponiendo que todas sus están normalizadas, por ejemplo, al dedicar por la magnitud de , es bastante fácil ver qué variables son más importantes: aquellas que son más grandes que las demás o (en el lado negativo ) menor cf los otros. Influyen en la pérdida más.x x
Si está interesado en encontrar las variables que realmente son importantes y en el proceso no le importa echar algunas, puede regularizar su función de pérdida:ℓ1
Los derivados o el regularizador son bastante sencillos, por lo que no los mencionaré aquí. El uso de esta forma de regularización y una apropiada que los elementos menos importantes en conviertan en cero y los demás no.λ w
Espero que esto ayude. Pregunte si tiene más preguntas.
fuente