Me pregunto si es una buena idea eliminar esas variables con un valor de importancia variable negativo ("% IncMSE") en un contexto de regresión. ¿Y si me da una mejor predicción? ¿Qué piensas?
Me pregunto si es una buena idea eliminar esas variables con un valor de importancia variable negativo ("% IncMSE") en un contexto de regresión. ¿Y si me da una mejor predicción? ¿Qué piensas?
La importancia variable en el bosque aleatorio se calcula de la siguiente manera:
Luego, los valores de una sola columna se permutan y el MSE se calcula nuevamente. Por ejemplo, si una columna (Col1) toma los valores 1,2,3,4, y una permutación aleatoria de los valores da como resultado 4,3,1,2. Esto da como resultado un MSE1. Entonces, un aumento en el MSE, es decir, MSE1 - MSE, significaría la importancia de la variable.
Esperamos que la diferencia sea positiva, pero en el caso de un número negativo, denota que la permutación aleatoria funcionó mejor. Se puede inferir que la variable no tiene un papel en la predicción, es decir, no es importante.
¡Espero que esto ayude!
¡Consulte el siguiente enlace para obtener una explicación detallada!
/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean
Esto puede ser solo una fluctuación aleatoria (por ejemplo, si tiene un ntree pequeño).
Si no, puede mostrar que tiene una gran cantidad de paradojas en sus datos, es decir, pares de objetos con predictores casi idénticos y resultados muy diferentes. En este caso, comprobaría dos veces si el modelo realmente tiene sentido y comenzaría a pensar cómo podría obtener más atributos para resolverlos.