Soy bastante nuevo en los bosques al azar. En el pasado, siempre he comparado la precisión del ajuste contra la prueba contra el ajuste contra el tren para detectar cualquier sobreajuste. Pero acabo de leer aquí que:
"En bosques aleatorios, no hay necesidad de validación cruzada o un conjunto de pruebas separado para obtener una estimación imparcial del error del conjunto de pruebas. Se estima internamente, durante la ejecución ..."
El pequeño párrafo anterior se puede encontrar en la sección La estimación del error de fuera de bolsa (oob) . Este concepto de error fuera de bolsa es completamente nuevo para mí y lo que es un poco confuso es cómo el error OOB en mi modelo es del 35% (o del 65% de precisión), pero aún así, si aplico la validación cruzada a mis datos (solo una simple retención método) y compare tanto el ajuste contra la prueba contra el ajuste contra el tren obtengo una precisión del 65% y una precisión del 96% respectivamente. En mi experiencia, esto se considera sobreajuste, pero el OOB tiene un error del 35% al igual que mi error de ajuste vs prueba . ¿Estoy sobreajustando? ¿Debería incluso usar la validación cruzada para verificar el sobreajuste en bosques aleatorios?
En resumen, no estoy seguro de si debo confiar en el OOB para obtener un error imparcial del error del conjunto de prueba cuando mi ajuste vs tren indica que estoy sobreajustando.
Respuestas:
El error de entrenamiento (como en
predict(model, data=train)
) suele ser inútil. A menos que haga una poda (no estándar) de los árboles, no puede estar muy por encima de 0 por diseño del algoritmo . El bosque aleatorio utiliza la agregación bootstrap de los árboles de decisión, que se sabe que están mal equipados. Esto es como un error de entrenamiento para un clasificador de 1 vecino más cercano.Por lo tanto, el error de la bolsa no es exactamente el mismo (menos árboles para agregar, más copias de casos de capacitación) que un error de validación cruzada, pero para fines prácticos es lo suficientemente cercano.
Lo que tendría sentido mirar para detectar el sobreajuste es comparar el error fuera de bolsa con una validación externa. Sin embargo, a menos que sepa acerca de la agrupación en sus datos, un error de validación cruzada "simple" será propenso al mismo sesgo optimista que el error de la bolsa: la división se realiza de acuerdo con principios muy similares.
Tendría que comparar la validación cruzada o fuera de bolsa con el error para un experimento de prueba bien diseñado para detectar esto.
fuente
El error fuera de bolsa es útil y puede reemplazar otros protocolos de estimación de rendimiento (como la validación cruzada), pero debe usarse con cuidado.
Al igual que la validación cruzada, la estimación del rendimiento utilizando muestras fuera de bolsa se calcula utilizando datos que no se utilizaron para el aprendizaje. Si los datos se han procesado de una manera que transfiere información a través de muestras, la estimación (probablemente) estará sesgada. Ejemplos simples que vienen a la mente son la selección de funciones o la imputación de valores perdidos. En ambos casos (y especialmente para la selección de características) los datos se transforman utilizando la información del conjunto de datos completo, sesgando la estimación.
fuente