¿El error de falta de bolsa hace que el CV sea innecesario en bosques aleatorios?

15

Soy bastante nuevo en los bosques al azar. En el pasado, siempre he comparado la precisión del ajuste contra la prueba contra el ajuste contra el tren para detectar cualquier sobreajuste. Pero acabo de leer aquí que:

"En bosques aleatorios, no hay necesidad de validación cruzada o un conjunto de pruebas separado para obtener una estimación imparcial del error del conjunto de pruebas. Se estima internamente, durante la ejecución ..."

El pequeño párrafo anterior se puede encontrar en la sección La estimación del error de fuera de bolsa (oob) . Este concepto de error fuera de bolsa es completamente nuevo para mí y lo que es un poco confuso es cómo el error OOB en mi modelo es del 35% (o del 65% de precisión), pero aún así, si aplico la validación cruzada a mis datos (solo una simple retención método) y compare tanto el ajuste contra la prueba contra el ajuste contra el tren obtengo una precisión del 65% y una precisión del 96% respectivamente. En mi experiencia, esto se considera sobreajuste, pero el OOB tiene un error del 35% al ​​igual que mi error de ajuste vs prueba . ¿Estoy sobreajustando? ¿Debería incluso usar la validación cruzada para verificar el sobreajuste en bosques aleatorios?

En resumen, no estoy seguro de si debo confiar en el OOB para obtener un error imparcial del error del conjunto de prueba cuando mi ajuste vs tren indica que estoy sobreajustando.

jgozal
fuente
OOB puede usarse para determinar hiperparámetros. Aparte de eso, para mí, para estimar el rendimiento de un modelo, uno debería usar validación cruzada.
Metariat
@Matemattica cuando hablas de hiperparámetros, ¿de qué estás hablando exactamente? Perdón por mi falta de conocimiento sobre el tema
jgozal
cantidad de árboles y características seleccionadas al azar en cada iteración
Metariat
Sé que esta es una pregunta completamente diferente, pero ¿cómo se determina el número de árboles y la muestra de características en cada iteración a partir de un error?
jgozal
1
Puede ser que esto pueda ayudar: stats.stackexchange.com/a/112052/78313 En general, ¡nunca he visto una diferencia tan grande en RF!
Metariat

Respuestas:

21
  • El error de entrenamiento (como en predict(model, data=train)) suele ser inútil. A menos que haga una poda (no estándar) de los árboles, no puede estar muy por encima de 0 por diseño del algoritmo . El bosque aleatorio utiliza la agregación bootstrap de los árboles de decisión, que se sabe que están mal equipados. Esto es como un error de entrenamiento para un clasificador de 1 vecino más cercano.

  • 1mi

    Por lo tanto, el error de la bolsa no es exactamente el mismo (menos árboles para agregar, más copias de casos de capacitación) que un error de validación cruzada, pero para fines prácticos es lo suficientemente cercano.

  • Lo que tendría sentido mirar para detectar el sobreajuste es comparar el error fuera de bolsa con una validación externa. Sin embargo, a menos que sepa acerca de la agrupación en sus datos, un error de validación cruzada "simple" será propenso al mismo sesgo optimista que el error de la bolsa: la división se realiza de acuerdo con principios muy similares.
    Tendría que comparar la validación cruzada o fuera de bolsa con el error para un experimento de prueba bien diseñado para detectar esto.

cbeleites apoya a Monica
fuente
11

El error fuera de bolsa es útil y puede reemplazar otros protocolos de estimación de rendimiento (como la validación cruzada), pero debe usarse con cuidado.

Al igual que la validación cruzada, la estimación del rendimiento utilizando muestras fuera de bolsa se calcula utilizando datos que no se utilizaron para el aprendizaje. Si los datos se han procesado de una manera que transfiere información a través de muestras, la estimación (probablemente) estará sesgada. Ejemplos simples que vienen a la mente son la selección de funciones o la imputación de valores perdidos. En ambos casos (y especialmente para la selección de características) los datos se transforman utilizando la información del conjunto de datos completo, sesgando la estimación.

Jorge
fuente