Me he convertido en una especie de nihilista cuando se trata de clasificaciones de importancia variable (en el contexto de modelos multivariados de todo tipo).
A menudo, en el curso de mi trabajo, se me pide que ayude a otro equipo a producir una clasificación de importancia variable o que produzca una clasificación de importancia variable de mi propio trabajo. En respuesta a estas solicitudes, hago las siguientes preguntas
¿Para qué le gustaría este ranking de importancia variable? ¿Qué esperas aprender de él? ¿Qué tipo de decisiones te gustaría tomar al usarlo?
Las respuestas que recibo casi siempre se dividen en una de dos categorías.
- Me gustaría saber la importancia de las diferentes variables en mi modelo para predecir la respuesta.
- Me gustaría usarlo para la selección de funciones, eliminando variables de baja importancia.
La primera respuesta es tautológica (me gustaría una clasificación de importancia variable porque me gustaría una clasificación de importancia variable). Debo suponer que estas clasificaciones satisfacen una necesidad psicológica al consumir el resultado de un modelo multivariante. Me cuesta entender esto, ya que clasificar las variables "importancia" individualmente parece rechazar implícitamente la naturaleza multidimensional del modelo en cuestión.
La segunda respuesta se reduce esencialmente a una versión informal de selección hacia atrás , cuyos pecados estadísticos están bien documentados en otras partes de CrossValidated.
También lucho con la naturaleza mal definida de las clasificaciones de importancia. Parece haber poco acuerdo sobre qué concepto subyacente debe medir la clasificación, dándoles un sabor muy ad hoc. Hay muchas formas de asignar un puntaje o clasificación de importancia, y generalmente sufren inconvenientes y advertencias:
- Pueden depender mucho del algoritmo, como en las clasificaciones de importancia en bosques aleatorios y gbms.
- Pueden tener una varianza extremadamente alta, cambiando drásticamente con perturbaciones a los datos subyacentes.
- Pueden sufrir una gran correlación en los predictores de entrada.
Entonces, con todo lo dicho, mi pregunta es, ¿cuáles son algunos de los usos estadísticamente válidos de las clasificaciones de importancia variable, o cuál es un argumento convincente (ya sea para un estadístico o un laico) por la inutilidad de tal deseo? Estoy interesado tanto en argumentos teóricos generales como en estudios de casos, lo que sea más efectivo para hacer el punto.
fuente
glmnet
esté disponible?Respuestas:
He argumentado que la importancia variable es un concepto resbaladizo , como plantea esta pregunta. El primer tipo de respuesta tautológica que recibes a tu pregunta y las esperanzas poco realistas de aquellos que interpretarían los resultados de importancia variable en términos de causalidad, como señaló @DexGroves, necesitan poca elaboración.
Sin embargo, para ser justos con aquellos que usarían la selección hacia atrás, incluso Frank Harrell lo permite como parte de una estrategia de modelado. De la página 97 de sus Estrategias de modelado de regresión , segunda edición (una declaración similar se encuentra en la página 131 de las notas del curso asociadas ):
Sin embargo, este uso potencial limitado de la selección hacia atrás es el paso 13, el último paso antes del modelo final (paso 14). Viene bien después de los primeros pasos cruciales:
En mi experiencia, las personas a menudo quieren saltarse el paso 2 y dejar que algún procedimiento automatizado reemplace la aplicación inteligente del conocimiento de la materia. Esto puede llevar a que se haga hincapié en la importancia variable.
El modelo completo del paso 14 de Harrell es seguido por 5 pasos adicionales de validación y ajuste, con un último paso:
Como han señalado otras respuestas, hay problemas de capacidad de acción, costo y simplicidad que entran en la aplicación práctica de los resultados de modelado. Por ejemplo, si desarrollo un nuevo biomarcador de cáncer que mejora el pronóstico pero cuesta $ 100,000 por prueba, podría ser difícil convencer a las aseguradoras o al gobierno de que paguen la prueba a menos que sea espectacularmente útil. Por lo tanto, no es irracional que alguien desee centrarse en las variables que son "más importantes" o simplificar un modelo preciso en uno que sea algo menos preciso pero que sea más fácil o menos costoso de implementar.
Pero esta selección de variables y la simplificación del modelo deben ser para un propósito específico , y creo que ahí es donde surge la dificultad. El problema es similar a la evaluación de los esquemas de clasificación únicamente sobre la base del porcentaje de casos clasificados correctamente. Así como los diferentes errores de clasificación pueden tener diferentes costos, los diferentes esquemas de simplificación de modelos pueden tener diferentes costos que se equilibran con los beneficios esperados.
Por lo tanto, creo que el tema en el que centrarse como analista es la capacidad de estimar e ilustrar estos costos y beneficios de manera confiable con procedimientos de modelado estadístico, en lugar de preocuparse demasiado por un concepto abstracto de validez estadística per se. Por ejemplo, las páginas 157-8 de las notas de clase de Harrell vinculadas anteriormente tienen un ejemplo del uso del bootstrap para mostrar los caprichos de los predictores de clasificación en mínimos cuadrados; Se pueden encontrar resultados similares para conjuntos de variables seleccionados por LASSO.
Si ese tipo de variabilidad en la selección de variables no se interpone en una aplicación práctica particular del modelo, está bien. El trabajo es estimar cuánto y a qué tipo de problemas conducirá esa simplificación.
fuente
Esto es completamente anecdótico, pero he encontrado que la importancia variable es útil para identificar errores o debilidades en GBM.
La importancia variable le brinda una especie de gran descripción transversal del modelo que de otro modo sería difícil obtener. Las variables que están más arriba en la lista están viendo más actividad (si son más "importantes" o no es otra cuestión). A menudo, un predictor de mal comportamiento (por ejemplo, algo con visión de futuro o un factor de alta cardinalidad) se disparará a la cima.
Si hay un gran desacuerdo entre la importancia variable de la intuición y la importancia variable de GBM, generalmente se puede obtener algún conocimiento valioso o se puede encontrar un error.
Yo agregaría una tercera respuesta a "¿por qué me preguntas por esto?" pregunta, que es "porque quiero entender qué es lo que causó mi respuesta". Eep
fuente
Las clasificaciones de importancia variable tienen un papel definido en el mundo empresarial aplicado siempre que sea necesario priorizar la cantidad potencialmente grande de entradas a un proceso, cualquier proceso. Esta información proporciona dirección en términos de una estrategia enfocada para atacar un problema, trabajando de la más importante a la menos importante, por ejemplo, la reducción de costos del proceso, dado que las variables son aprovechables y no son factores fijos o estructurales inmunes a la manipulación. Al final del día, esto debería resultar en una prueba A / B de algún tipo.
Sin embargo, para su punto, Matt, y al igual que con cualquier clasificación ordinal, los pequeños matices o diferencias entre las variables pueden ser ambiguos u oscurecidos, viciando su utilidad.
fuente
Estoy completamente de acuerdo con usted en el punto de vista teórico. Pero desde el punto de vista práctico, la importancia variable es muy útil.
Tomemos un ejemplo en el que una compañía de seguros quiere reducir la cantidad de preguntas en un cuestionario que cuantifica el riesgo de sus clientes. Cuanto más complicado es el cuestionario, menos probable es que los clientes compren sus productos. Por esa razón, quieren reducir las preguntas menos útiles al mantener el nivel de cuantificación del riesgo. La solución a menudo es usar una importancia variable para determinar qué preguntas se eliminarán del cuestionario (y tener "más o menos" la misma predicción sobre el perfil de riesgo del cliente potencial).
fuente