¿Para qué son útiles las clasificaciones de importancia variable?

25

Me he convertido en una especie de nihilista cuando se trata de clasificaciones de importancia variable (en el contexto de modelos multivariados de todo tipo).

A menudo, en el curso de mi trabajo, se me pide que ayude a otro equipo a producir una clasificación de importancia variable o que produzca una clasificación de importancia variable de mi propio trabajo. En respuesta a estas solicitudes, hago las siguientes preguntas

¿Para qué le gustaría este ranking de importancia variable? ¿Qué esperas aprender de él? ¿Qué tipo de decisiones te gustaría tomar al usarlo?

Las respuestas que recibo casi siempre se dividen en una de dos categorías.

  • Me gustaría saber la importancia de las diferentes variables en mi modelo para predecir la respuesta.
  • Me gustaría usarlo para la selección de funciones, eliminando variables de baja importancia.

La primera respuesta es tautológica (me gustaría una clasificación de importancia variable porque me gustaría una clasificación de importancia variable). Debo suponer que estas clasificaciones satisfacen una necesidad psicológica al consumir el resultado de un modelo multivariante. Me cuesta entender esto, ya que clasificar las variables "importancia" individualmente parece rechazar implícitamente la naturaleza multidimensional del modelo en cuestión.

La segunda respuesta se reduce esencialmente a una versión informal de selección hacia atrás , cuyos pecados estadísticos están bien documentados en otras partes de CrossValidated.

También lucho con la naturaleza mal definida de las clasificaciones de importancia. Parece haber poco acuerdo sobre qué concepto subyacente debe medir la clasificación, dándoles un sabor muy ad hoc. Hay muchas formas de asignar un puntaje o clasificación de importancia, y generalmente sufren inconvenientes y advertencias:

  • Pueden depender mucho del algoritmo, como en las clasificaciones de importancia en bosques aleatorios y gbms.
  • Pueden tener una varianza extremadamente alta, cambiando drásticamente con perturbaciones a los datos subyacentes.
  • Pueden sufrir una gran correlación en los predictores de entrada.

Entonces, con todo lo dicho, mi pregunta es, ¿cuáles son algunos de los usos estadísticamente válidos de las clasificaciones de importancia variable, o cuál es un argumento convincente (ya sea para un estadístico o un laico) por la inutilidad de tal deseo? Estoy interesado tanto en argumentos teóricos generales como en estudios de casos, lo que sea más efectivo para hacer el punto.

Matthew Drury
fuente
1
Usar importancia variable (de algún procedimiento sensato) para filtrar predictores débiles no parece una idea terrible. ¿Puedes aclarar por qué crees que esto es malo?
dsaxton
3
Supongo que, en general, creo que muchos procesos estadísticos no están dominados por predictores "importantes", sino por la acumulación de muchos efectos pequeños. Por ejemplo, el poder de la regresión de crestas podría explicarse al reconocer explícitamente esta estructura. Dicho de otra manera, ¿cuál es la razón por la que debemos creer, a priori, en el concepto de un "predictor débil", y por qué debemos filtrarlos? ¿Y por qué deberíamos usar un procedimiento tan informal para hacerlo cuando glmnetesté disponible?
Matthew Drury
2
En cualquier campo en el que no somos expertos, ¡queremos saber qué es importante preocuparse! Muchos libros de negocios y administración parecen tratar de explicar extensamente que identifica los problemas importantes y se enfoca en ellos (sí, de hecho). Sospecho que la falta de comunicación aquí generalmente comienza con personas no estadísticas, suponiendo que hay una manera de cuantificar la importancia y que es tarea de las personas estadísticas saber cómo hacerlo y no preocuparse por lo difícil que es. No sé cómo ser menos general, pero parte de la discusión aquí parece perder puntos clave en su pregunta.
Nick Cox

Respuestas:

8

He argumentado que la importancia variable es un concepto resbaladizo , como plantea esta pregunta. El primer tipo de respuesta tautológica que recibes a tu pregunta y las esperanzas poco realistas de aquellos que interpretarían los resultados de importancia variable en términos de causalidad, como señaló @DexGroves, necesitan poca elaboración.

Sin embargo, para ser justos con aquellos que usarían la selección hacia atrás, incluso Frank Harrell lo permite como parte de una estrategia de modelado. De la página 97 de sus Estrategias de modelado de regresión , segunda edición (una declaración similar se encuentra en la página 131 de las notas del curso asociadas ):

  1. Haga una selección limitada de variables descendentes hacia atrás si la parsimonia es más importante que la precisión.

Sin embargo, este uso potencial limitado de la selección hacia atrás es el paso 13, el último paso antes del modelo final (paso 14). Viene bien después de los primeros pasos cruciales:

  1. Reúna tantos datos pertinentes precisos como sea posible, con amplias distribuciones para los valores predictores ...
  2. Formule buenas hipótesis que conduzcan a la especificación de predictores candidatos relevantes y posibles interacciones ...

En mi experiencia, las personas a menudo quieren saltarse el paso 2 y dejar que algún procedimiento automatizado reemplace la aplicación inteligente del conocimiento de la materia. Esto puede llevar a que se haga hincapié en la importancia variable.

El modelo completo del paso 14 de Harrell es seguido por 5 pasos adicionales de validación y ajuste, con un último paso:

  1. Desarrolle simplificaciones para el modelo completo aproximándolo a cualquier grado de precisión deseado.

Como han señalado otras respuestas, hay problemas de capacidad de acción, costo y simplicidad que entran en la aplicación práctica de los resultados de modelado. Por ejemplo, si desarrollo un nuevo biomarcador de cáncer que mejora el pronóstico pero cuesta $ 100,000 por prueba, podría ser difícil convencer a las aseguradoras o al gobierno de que paguen la prueba a menos que sea espectacularmente útil. Por lo tanto, no es irracional que alguien desee centrarse en las variables que son "más importantes" o simplificar un modelo preciso en uno que sea algo menos preciso pero que sea más fácil o menos costoso de implementar.

Pero esta selección de variables y la simplificación del modelo deben ser para un propósito específico , y creo que ahí es donde surge la dificultad. El problema es similar a la evaluación de los esquemas de clasificación únicamente sobre la base del porcentaje de casos clasificados correctamente. Así como los diferentes errores de clasificación pueden tener diferentes costos, los diferentes esquemas de simplificación de modelos pueden tener diferentes costos que se equilibran con los beneficios esperados.

Por lo tanto, creo que el tema en el que centrarse como analista es la capacidad de estimar e ilustrar estos costos y beneficios de manera confiable con procedimientos de modelado estadístico, en lugar de preocuparse demasiado por un concepto abstracto de validez estadística per se. Por ejemplo, las páginas 157-8 de las notas de clase de Harrell vinculadas anteriormente tienen un ejemplo del uso del bootstrap para mostrar los caprichos de los predictores de clasificación en mínimos cuadrados; Se pueden encontrar resultados similares para conjuntos de variables seleccionados por LASSO.

Si ese tipo de variabilidad en la selección de variables no se interpone en una aplicación práctica particular del modelo, está bien. El trabajo es estimar cuánto y a qué tipo de problemas conducirá esa simplificación.

EdM
fuente
2
Esta es una gran respuesta @EdM y es bastante consistente con las opiniones que he desarrollado al respecto. Especialmente me gustan sus dos puntos de que 1) los predictores inaceptables (por razones morales, regulatorias o comerciales) deben descartarse antes del modelado, 2) la simplificación del modelo final debe ser para un propósito específico y definido a priori. Estos son esencialmente los puntos que generalmente intento relajar con las preguntas a mis socios comerciales.
Matthew Drury
También estoy de acuerdo con su punto final, que es importante ilustrar a los socios la variación inherente en el procedimiento de selección final. En el contexto de LASSO, me decidí a usar el bootstrap para estimar, para cada predictor, , y la varianza condicional de la estimación, dado que no es cero. ¿Qué piensas de esto? ¿Hay formas más apropiadas de resumir esta variación? PAGSr(β0 0)
Matthew Drury
Dicho esto, todavía me pregunto si existe algún concepto subyacente que las clasificaciones de importancia están tratando de capturar, o si son solo ataques ad hoc en un problema estadístico poco claro.
Matthew Drury
1
@MatthewDrury, Frank Harrell proporciona una forma basada en principios para evaluar la "importancia variable", basada en la fracción de probabilidad logarítmica explicada por cada variable. Eso no es lo que las personas menos sofisticadas probablemente quieren decir con la frase. Al igual que usted, he utilizado la fracción de veces que LASSO elige cada predictor, entre múltiples muestras de arranque, como la mejor manera que puedo pensar para ilustrar los caprichos de la selección de variables. Eso me alejó principalmente de LASSO y hacia la regresión de cresta para problemas de escala moderada.
EdM
8

Esto es completamente anecdótico, pero he encontrado que la importancia variable es útil para identificar errores o debilidades en GBM.

La importancia variable le brinda una especie de gran descripción transversal del modelo que de otro modo sería difícil obtener. Las variables que están más arriba en la lista están viendo más actividad (si son más "importantes" o no es otra cuestión). A menudo, un predictor de mal comportamiento (por ejemplo, algo con visión de futuro o un factor de alta cardinalidad) se disparará a la cima.

Si hay un gran desacuerdo entre la importancia variable de la intuición y la importancia variable de GBM, generalmente se puede obtener algún conocimiento valioso o se puede encontrar un error.

Yo agregaría una tercera respuesta a "¿por qué me preguntas por esto?" pregunta, que es "porque quiero entender qué es lo que causó mi respuesta". Eep

Dex Groves
fuente
4

Las clasificaciones de importancia variable tienen un papel definido en el mundo empresarial aplicado siempre que sea necesario priorizar la cantidad potencialmente grande de entradas a un proceso, cualquier proceso. Esta información proporciona dirección en términos de una estrategia enfocada para atacar un problema, trabajando de la más importante a la menos importante, por ejemplo, la reducción de costos del proceso, dado que las variables son aprovechables y no son factores fijos o estructurales inmunes a la manipulación. Al final del día, esto debería resultar en una prueba A / B de algún tipo.

Sin embargo, para su punto, Matt, y al igual que con cualquier clasificación ordinal, los pequeños matices o diferencias entre las variables pueden ser ambiguos u oscurecidos, viciando su utilidad.

Mike Hunter
fuente
Estoy completamente de acuerdo con la utilidad de la clasificación variable en muchos casos de negocios. Pero aquí la preocupación de 'diferentes algoritmos dan diferentes clasificaciones' sigue sin abordarse. ¿Tienes alguna sugerencia para abordar eso? También vea mi pregunta aquí stats.stackexchange.com/q/251248/71287 y los comentarios a continuación.
Aliweb
3
@aliweb El tema de la diferencia no tiene una solución única, fija y unitaria. Este punto es tan sutil como la distinción entre jerarquías y heterarquías donde se revela que las clasificaciones globales son, de hecho, totalmente locales y transitorias. Las mejores revisiones de la literatura sobre importancia variable relativa probablemente pertenecen a Ulrike Groemping, cuyos documentos son bastante completos con las diversas métricas que existen. Además, su módulo y método R, RELAMPO, es un enfoque tan riguroso para estimar la importancia relativa como existe.
Mike Hunter
3

Estoy completamente de acuerdo con usted en el punto de vista teórico. Pero desde el punto de vista práctico, la importancia variable es muy útil.

Tomemos un ejemplo en el que una compañía de seguros quiere reducir la cantidad de preguntas en un cuestionario que cuantifica el riesgo de sus clientes. Cuanto más complicado es el cuestionario, menos probable es que los clientes compren sus productos. Por esa razón, quieren reducir las preguntas menos útiles al mantener el nivel de cuantificación del riesgo. La solución a menudo es usar una importancia variable para determinar qué preguntas se eliminarán del cuestionario (y tener "más o menos" la misma predicción sobre el perfil de riesgo del cliente potencial).

Metariado
fuente
Estoy completamente de acuerdo con la utilidad de la clasificación variable en muchos casos de negocios. Pero aquí la preocupación de 'diferentes algoritmos dan diferentes clasificaciones' sigue sin abordarse. ¿Tienes alguna sugerencia para abordar eso? También vea mi pregunta aquí stats.stackexchange.com/q/251248/71287 y los comentarios a continuación.
Aliweb
@aliweb: Creo que Matthew ya le proporcionó una excelente respuesta a su pregunta.
Metariat