Intenté usar las características de las características de los bosques aleatorios para realizar una selección empírica de características para un problema de regresión donde todas las características son categóricas y muchas de ellas tienen muchos niveles (del orden de 100-1000). Dado que la codificación única crea una variable ficticia para cada nivel, las características de las características son para cada nivel y no para cada característica (columna). ¿Cuál es una buena manera de agregar estas características importantes?
Pensé en sumar u obtener la importancia promedio para todos los niveles de una característica (probablemente la primera estará sesgada hacia aquellas características con más niveles). ¿Hay alguna referencia sobre este tema?
¿Qué más se puede hacer para disminuir la cantidad de funciones? Soy consciente del lazo grupal, no pude encontrar nada fácil de usar para scikit-learn.
fuente
Respuestas:
Depende de cómo los esté codificando de manera activa. Muchas soluciones automatizadas para eso nombrarán todos los booleanos convertidos con un patrón para que una variable categórica llamada "letra" con valores AZ termine como:
letra_A, letra_B, letra_C, letra_D, ....
Si después de haber descubierto la importancia de la característica, tiene una matriz de características y el peso / importancia asociado, analizaría la matriz y tal vez resumiría los pesos de importancia de la característica para cualquier cosa que comience con "letra%".
fuente