Comprender qué características fueron más importantes para la regresión logística

17

He creado un clasificador de regresión logística que es muy preciso en mis datos. Ahora quiero entender mejor por qué funciona tan bien. Específicamente, me gustaría clasificar qué características están haciendo la mayor contribución (qué características son las más importantes) e, idealmente, cuantificar cuánto contribuye cada característica a la precisión del modelo general (o algo en este sentido). ¿Cómo hago esto?

Mi primer pensamiento fue clasificarlos en función de su coeficiente, pero sospecho que esto no puede ser correcto. Si tengo dos características que son igualmente útiles, pero la extensión de la primera es diez veces mayor que la segunda, entonces esperaría que la primera reciba un coeficiente más bajo que la segunda. ¿Existe una forma más razonable de evaluar la importancia de la característica?

Tenga en cuenta que no estoy tratando de entender cuánto afecta un pequeño cambio en la función a la probabilidad del resultado. Más bien, estoy tratando de entender qué tan valiosa es cada característica, en términos de hacer que el clasificador sea preciso. Además, mi objetivo no es tanto realizar una selección de características o construir un modelo con menos características, sino tratar de proporcionar alguna "explicabilidad" para el modelo aprendido, de modo que el clasificador no sea solo un recuadro negro opaco.

DW
fuente
Arrojaría que los bosques aleatorios también son una buena técnica aquí. Puede examinar las divisiones superiores sobre el bosque para obtener una intuición sobre las características que más contribuyen a la predicción.

Respuestas:

14

Yχ2χ2estadística. Estas estadísticas tienen la máxima información / potencia. Puede usar el bootstrap para mostrar cuán difícil es elegir "ganadores" y "perdedores" al obtener intervalos de confianza en los rangos de la información predictiva proporcionada por cada predictor una vez que se tienen en cuenta los otros predictores. Un ejemplo está en la Sección 5.4 de mis notas del curso : haga clic en Folletos y luego en Folletos nuevamente.

Si tiene características altamente correlacionadas, puede hacer una "prueba fragmentaria" para combinar su influencia. En la Figura 15.11 se muestra un cuadro que hace esto, donde sizerepresenta la contribución combinada de 4 predictores separados.

Frank Harrell
fuente
6

La respuesta corta es que no hay una única forma "correcta" de responder esta pregunta.

Para una mejor revisión de los problemas, consulte los documentos de Ulrike Groemping, por ejemplo, Estimadores de importancia relativa en la regresión lineal basada en la descomposición de la varianza . Las opciones que analiza van desde simples heurísticas hasta soluciones sofisticadas, intensivas en CPU y multivariantes.

http://prof.beuth-hochschule.de/fileadmin/prof/groemp/downloads/amstat07mayp139.pdf

Groemping propone su propio enfoque en un paquete R llamado RELAIMPO que también vale la pena leer.

https://cran.r-project.org/web/packages/relaimpo/relaimpo.pdf

Una heurística rápida y sucia que he usado es sumar los chi-cuadrados (valores F, estadísticos t) asociados con cada parámetro y luego acentuar los valores individuales con esa suma. El resultado sería una métrica de importancia relativa clasificable.

Dicho esto, nunca he sido fanático de los "coeficientes beta estandarizados", aunque la profesión los recomienda con frecuencia y los utiliza ampliamente. Aquí está el problema con ellos: la estandarización es univariante y externa a la solución del modelo. En otras palabras, este enfoque no refleja la naturaleza condicional de los resultados del modelo.

Mike Hunter
fuente
Gracias por la respuesta y los enlaces! ¿Puede explicarme o ayudarme a comprender qué significa "externo a la solución del modelo" y "la naturaleza condicional de los resultados del modelo"? (No soy un experto en estadística, por desgracia.)
DW
1
Sin preocupaciones. La noción de cómo los modelos "controlan" o condicionan los otros factores en un modelo puede ser una de esas cosas en las que muchos estadísticos pueden estar de acuerdo. También es un tema que ha visto muchos comentarios en este sitio. Aquí hay un enlace a uno de esos hilos: stats.stackexchange.com/questions/17336/… Uno de los mejores comentarios fue por @whuber quien dijo: 'Puedes pensar en "controlar" como "contabilidad (en el sentido menos estricto) ) para la contribución / influencia / efecto / asociación de una variable en todas las demás variables. »
Mike Hunter
¡Gracias! Estoy familiarizado con la noción de "controlar por" algún factor. ¿Cómo se relaciona o ayuda a comprender el significado de "solución externa al modelo" o "la naturaleza condicional de los resultados del modelo"?
DW
Los predictores de estandarización para crear una "beta estandarizada" generalmente se realizan antes de construir un modelo, ¿correcto? Por lo tanto, esa transformación es "externa" a la solución del modelo. Conmigo hasta ahora?
Mike Hunter
OKAY. Ahora puedo entender lo que quieres decir con "externo". Gracias por la explicación. ¿Puede explicar por qué esto es un problema y qué se entiende por "la naturaleza condicional ..."? (Quizás esas dos preguntas son la misma pregunta con la misma respuesta ...) ¡Perdón por salpicarte de preguntas! Estoy ansioso por entender lo que escribiste.
DW
3

Una forma bastante sólida de hacer esto sería intentar ajustar el modelo N veces donde N es el número de características. Cada vez use N-1 de las características y deje una característica fuera. Luego, puede usar su métrica de validación favorita para medir cuánto afecta la inclusión o exclusión de cada función al rendimiento del modelo. Dependiendo de la cantidad de características que tenga, esto puede ser computacionalmente costoso.

Daniel Johnson
fuente
44
Esto no maneja bien las funciones correlacionadas. Es fácil diseñar una situación en la que dos características están altamente correlacionadas, de modo que eliminar cualquiera de ellas afecta el poder predictivo de manera mínima, pero eliminar ambas lo afecta severamente. Esencialmente, uno en el que los dos predictores llevan información casi idéntica, pero importante.
Matthew Drury
2
Estoy de acuerdo. Esto también es un peligro al examinar los coeficientes.
Daniel Johnson
1
Muy cierto. Muy cierto.
Matthew Drury
2

|βj^||βj^|σ^jxj. Un problema con esto es que se descompone cuando ya no se trata de predictores numéricos.

Con respecto a su último punto, por supuesto, es posible que una variable pueda contribuir mucho a las probabilidades de registro estimadas sin afectar realmente las probabilidades de registro "verdaderas", pero no creo que esto deba ser una gran preocupación si tener confianza en el procedimiento que produjo las estimaciones.

dsaxton
fuente
0

Tienes razón sobre por qué no deberías usar los coeficientes como una medida de relevancia, ¡pero puedes hacerlo absolutamente si los divides por su error estándar! Si ha estimado el modelo con R, ¡ya está hecho para usted! Incluso puede eliminar las características menos importantes del modelo y ver cómo funciona.

Un enfoque más heurístico para estudiar cómo los diferentes cambios en las variables alteran el resultado es hacer exactamente eso: probar diferentes entradas y estudiar sus probabilidades estimadas. Sin embargo, como su modelo es bastante simple, yo diría que

David
fuente