En un bosque aleatorio, ¿el% IncMSE mayor es mejor o peor?

17

Una vez que he construido un modelo de bosque aleatorio (regresión) en R, la llamada rf$importanceme proporciona dos medidas para cada variable predictiva, %IncMSEy IncNodePurity. ¿La interpretación de que las variables predictoras con %IncMSEvalores más pequeños es más importante que las variables predictoras con %IncMSEvalores más grandes ?

¿Qué tal para IncNodePurity?

derNincompoop
fuente

Respuestas:

30

% IncMSE es la medida más sólida e informativa. Es el aumento en la cantidad de predicciones (estimadas con CV fuera de bolsa) como resultado de la permutación de la variable j (valores aleatoriamente aleatorios).

  1. Crecer bosque de regresión. Calcule OOB-mse, denomine este mse0.
  2. para 1 a j var: permuta los valores de la columna j, luego predice y calcula OOB-mse (j)
  3. % IncMSE de j'th es (mse (j) -mse0) / mse0 * 100%

cuanto mayor sea el número, más importante

IncNodePurity se relaciona con la función de pérdida que, según las mejores divisiones, se elige. La función de pérdida es mse para regresión y gini-impureza para clasificación. Las variables más útiles logran mayores aumentos en la pureza de los nodos, es decir, encontrar una división que tenga una 'varianza' entre nodos alta y una 'varianza' intranódica pequeña. IncNodePurity está sesgado y solo debe usarse si el tiempo de cálculo adicional para calcular el% IncMSE es inaceptable. Dado que solo toma ~ 5-25% de tiempo extra para calcular el% IncMSE, esto casi nunca sucedería.

Una pregunta y respuesta similar

Soren Havelund Welling
fuente