Estoy tratando de probar la capacidad del bosque aleatorio para clasificar muestras entre 2 grupos; Hay 54 muestras y un número variable de variables utilizadas para la clasificación.
Me preguntaba por qué las estimaciones de fuera de bolsa (OOB) pueden variar hasta un 5% entre sí, incluso cuando estoy usando 50k árboles. ¿Es esto algo con lo que podría ayudar el bootstrapping?
machine-learning
random-forest
Sethzard
fuente
fuente
Respuestas:
Hay dos fuentes de la varianza OOB. Uno es la aleatoriedad del procedimiento en sí; Esto puede reducirse aumentando el número de árboles.
La otra fuente de variación es la imperfección irreducible de tener datos limitados y vivir en un mundo complejo. Aumentar el número de árboles no puede solucionar esto.
Además, a veces simplemente no hay suficientes datos para resolver el problema. Por ejemplo, imagine que dos instancias tienen etiquetas opuestas pero valores de características idénticos. Una de estas muestras siempre estará mal clasificada. (Este es un ejemplo extremo, pero ilustra cómo algunos problemas son irreparables. Podemos relajarlo un poco considerando una pequeña perturbación en un vector; ahora generalmente se clasificará igual que su gemelo, pero no siempre). Para resolver este problema , tendría que recopilar medidas adicionales para distinguir aún más los dos puntos.
La varianza irreducible no se puede solucionar con bootstrapping. Además, los bosques aleatorios ya están arrancados; es parte de la razón por la que tiene "aleatorio" en su nombre. (La otra razón es que se selecciona un subconjunto aleatorio de características en cada división).
fuente