Importancia de la característica con características categóricas de alta cardinalidad para la regresión (variable de representación numérica)

Intenté usar las características de las características de los bosques aleatorios para realizar una selección empírica de características para un problema de regresión donde todas las características son categóricas y muchas de ellas tienen muchos niveles (del orden de 100-1000). Dado que la codificación única crea una variable ficticia para cada nivel, las características de las características son para cada nivel y no para cada característica (columna). ¿Cuál es una buena manera de agregar estas características importantes?

Pensé en sumar u obtener la importancia promedio para todos los niveles de una característica (probablemente la primera estará sesgada hacia aquellas características con más niveles). ¿Hay alguna referencia sobre este tema?

¿Qué más se puede hacer para disminuir la cantidad de funciones? Soy consciente del lazo grupal, no pude encontrar nada fácil de usar para scikit-learn.

scikit-learn feature-selection random-forest xgboost categorical-data usuario90772
fuente

¿Alguien puede responder a la pregunta de si tiene sentido sumar la importancia variable de cada nivel de la variable categórica?

ver24

@ see24 No, no puedes simplemente sumarlos

Dan

Respuestas:

Depende de cómo los esté codificando de manera activa. Muchas soluciones automatizadas para eso nombrarán todos los booleanos convertidos con un patrón para que una variable categórica llamada "letra" con valores AZ termine como:

letra_A, letra_B, letra_C, letra_D, ....

Si después de haber descubierto la importancia de la característica, tiene una matriz de características y el peso / importancia asociado, analizaría la matriz y tal vez resumiría los pesos de importancia de la característica para cualquier cosa que comience con "letra%".

CalZ
fuente

¿No es la suma una ventaja para esas características con más niveles?

user90772

Hmm, buen punto. Puede resumirlo y luego dividirlo por el número de niveles / variables codificadas en caliente para obtener una importancia "promedio".

CalZ

Pensé en esto un poco más y depende de cómo se califique la importancia. En algunos casos, el valor de cada característica es un peso relativo donde el conjunto total suma 1. En ese caso, creo que tendría sentido resumir las características únicas. Si el puntaje de la característica se parecía más a un coeficiente de regresión y no se ponderaba en relación con el efecto neto, entonces el promedio probablemente sería mejor.

CalZ

Gracias por la respuesta. Dado que soy bastante nuevo en el área, pensé que esto era algo normal para las personas en ciencia de datos, pero o no es lo que debería hacer para evaluar la importancia de las características de una columna o esta publicación no obtuvo suficientes puntos de vista. En cualquier caso, gracias!

user90772

Muchas personas abogan por mirar las partes internas del modelo como una caja negra y evaluar el rendimiento en su lugar. En ciertos casos (por ejemplo, redes neuronales) esto se debe a que realmente no se puede examinar a fondo. Para algunos en los que puede ver fácilmente qué características son importantes (por ejemplo, regresión lineal), puede ser engañoso fácilmente (consulte: stats.stackexchange.com/questions/105114/… ). Creo que es por eso que las personas a veces evitan mirar la importancia de las características individuales.

CalZ