He creado un clasificador de regresión logística que es muy preciso en mis datos. Ahora quiero entender mejor por qué funciona tan bien. Específicamente, me gustaría clasificar qué características están haciendo la mayor contribución (qué características son las más importantes) e, idealmente, cuantificar cuánto contribuye cada característica a la precisión del modelo general (o algo en este sentido). ¿Cómo hago esto?
Mi primer pensamiento fue clasificarlos en función de su coeficiente, pero sospecho que esto no puede ser correcto. Si tengo dos características que son igualmente útiles, pero la extensión de la primera es diez veces mayor que la segunda, entonces esperaría que la primera reciba un coeficiente más bajo que la segunda. ¿Existe una forma más razonable de evaluar la importancia de la característica?
Tenga en cuenta que no estoy tratando de entender cuánto afecta un pequeño cambio en la función a la probabilidad del resultado. Más bien, estoy tratando de entender qué tan valiosa es cada característica, en términos de hacer que el clasificador sea preciso. Además, mi objetivo no es tanto realizar una selección de características o construir un modelo con menos características, sino tratar de proporcionar alguna "explicabilidad" para el modelo aprendido, de modo que el clasificador no sea solo un recuadro negro opaco.
Respuestas:
Si tiene características altamente correlacionadas, puede hacer una "prueba fragmentaria" para combinar su influencia. En la Figura 15.11 se muestra un cuadro que hace esto, donde
size
representa la contribución combinada de 4 predictores separados.fuente
La respuesta corta es que no hay una única forma "correcta" de responder esta pregunta.
Para una mejor revisión de los problemas, consulte los documentos de Ulrike Groemping, por ejemplo, Estimadores de importancia relativa en la regresión lineal basada en la descomposición de la varianza . Las opciones que analiza van desde simples heurísticas hasta soluciones sofisticadas, intensivas en CPU y multivariantes.
http://prof.beuth-hochschule.de/fileadmin/prof/groemp/downloads/amstat07mayp139.pdf
Groemping propone su propio enfoque en un paquete R llamado RELAIMPO que también vale la pena leer.
https://cran.r-project.org/web/packages/relaimpo/relaimpo.pdf
Una heurística rápida y sucia que he usado es sumar los chi-cuadrados (valores F, estadísticos t) asociados con cada parámetro y luego acentuar los valores individuales con esa suma. El resultado sería una métrica de importancia relativa clasificable.
Dicho esto, nunca he sido fanático de los "coeficientes beta estandarizados", aunque la profesión los recomienda con frecuencia y los utiliza ampliamente. Aquí está el problema con ellos: la estandarización es univariante y externa a la solución del modelo. En otras palabras, este enfoque no refleja la naturaleza condicional de los resultados del modelo.
fuente
Una forma bastante sólida de hacer esto sería intentar ajustar el modelo N veces donde N es el número de características. Cada vez use N-1 de las características y deje una característica fuera. Luego, puede usar su métrica de validación favorita para medir cuánto afecta la inclusión o exclusión de cada función al rendimiento del modelo. Dependiendo de la cantidad de características que tenga, esto puede ser computacionalmente costoso.
fuente
Con respecto a su último punto, por supuesto, es posible que una variable pueda contribuir mucho a las probabilidades de registro estimadas sin afectar realmente las probabilidades de registro "verdaderas", pero no creo que esto deba ser una gran preocupación si tener confianza en el procedimiento que produjo las estimaciones.
fuente
Tienes razón sobre por qué no deberías usar los coeficientes como una medida de relevancia, ¡pero puedes hacerlo absolutamente si los divides por su error estándar! Si ha estimado el modelo con R, ¡ya está hecho para usted! Incluso puede eliminar las características menos importantes del modelo y ver cómo funciona.
Un enfoque más heurístico para estudiar cómo los diferentes cambios en las variables alteran el resultado es hacer exactamente eso: probar diferentes entradas y estudiar sus probabilidades estimadas. Sin embargo, como su modelo es bastante simple, yo diría que
fuente