Importancia variable aleatoria Valores forestales negativos

10

Me pregunto si es una buena idea eliminar esas variables con un valor de importancia variable negativo ("% IncMSE") en un contexto de regresión. ¿Y si me da una mejor predicción? ¿Qué piensas?

machine-learning feature-selection random-forest importance Giuseppe
fuente

5

La importancia variable en el bosque aleatorio se calcula de la siguiente manera:

Inicialmente, el MSE del modelo se calcula con las variables originales.
Luego, los valores de una sola columna se permutan y el MSE se calcula nuevamente. Por ejemplo, si una columna (Col1) toma los valores 1,2,3,4, y una permutación aleatoria de los valores da como resultado 4,3,1,2. Esto da como resultado un MSE1. Entonces, un aumento en el MSE, es decir, MSE1 - MSE, significaría la importancia de la variable.
Esperamos que la diferencia sea positiva, pero en el caso de un número negativo, denota que la permutación aleatoria funcionó mejor. Se puede inferir que la variable no tiene un papel en la predicción, es decir, no es importante.

¡Espero que esto ayude!

¡Consulte el siguiente enlace para obtener una explicación detallada!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean

Amol Modi
fuente

3

Esto puede ser solo una fluctuación aleatoria (por ejemplo, si tiene un ntree pequeño).

Si no, puede mostrar que tiene una gran cantidad de paradojas en sus datos, es decir, pares de objetos con predictores casi idénticos y resultados muy diferentes. En este caso, comprobaría dos veces si el modelo realmente tiene sentido y comenzaría a pensar cómo podría obtener más atributos para resolverlos.

fuente

2

¿Podría explicar un poco más sobre las "paradojas en los datos"? No lo seguí del todo y me gustaría entender lo que estás explicando.

JEquihua

Importancia variable aleatoria Valores forestales negativos

Respuestas: