% IncMSE es la medida más sólida e informativa. Es el aumento en la cantidad de predicciones (estimadas con CV fuera de bolsa) como resultado de la permutación de la variable j (valores aleatoriamente aleatorios).
- Crecer bosque de regresión. Calcule OOB-mse, denomine este mse0.
- para 1 a j var: permuta los valores de la columna j, luego predice y calcula OOB-mse (j)
- % IncMSE de j'th es (mse (j) -mse0) / mse0 * 100%
cuanto mayor sea el número, más importante
IncNodePurity se relaciona con la función de pérdida que, según las mejores divisiones, se elige. La función de pérdida es mse para regresión y gini-impureza para clasificación. Las variables más útiles logran mayores aumentos en la pureza de los nodos, es decir, encontrar una división que tenga una 'varianza' entre nodos alta y una 'varianza' intranódica pequeña. IncNodePurity está sesgado y solo debe usarse si el tiempo de cálculo adicional para calcular el% IncMSE es inaceptable. Dado que solo toma ~ 5-25% de tiempo extra para calcular el% IncMSE, esto casi nunca sucedería.
Una pregunta y respuesta similar
Soren Havelund Welling
fuente