Acabo de completar el aprendizaje automático para el curso R en cognitivoclass.ai y he comenzado a experimentar con bosques aleatorios.
He hecho un modelo usando la biblioteca "randomForest" en R. El modelo se clasifica por dos clases, bueno y malo.
Sé que cuando un modelo está sobreajustado, funciona bien en los datos de su propio conjunto de entrenamiento pero mal en los datos fuera de la muestra.
Para entrenar y probar mi modelo, barajé y dividí el conjunto de datos completo en 70% para entrenamiento y 30% para pruebas.
Mi pregunta: estoy obteniendo una precisión del 100% de la predicción realizada en el conjunto de pruebas. ¿Es esto malo? Parece demasiado bueno para ser verdad.
El objetivo es el reconocimiento de formas de onda en cuatro, dependiendo de las formas de onda. Las características del conjunto de datos son los resultados de costos del análisis Dynamic Time Warping de formas de onda con su forma de onda objetivo.
fuente
Respuestas:
Los puntajes altos de validación, como la precisión, generalmente significan que no está sobreajustando, sin embargo, esto debe ser cauteloso y puede indicar que algo salió mal. También podría significar que el problema no es demasiado difícil y que su modelo realmente funciona bien. Dos cosas que podrían salir mal:
fuente
Investigue para ver cuáles son sus características más predictivas. A veces incluiste accidentalmente tu objetivo (o algo equivalente a tu objetivo) entre tus características.
fuente