Tengo una regresión forestal aleatoria construida usando skl y noto que produzco diferentes resultados basados en establecer la semilla aleatoria en diferentes valores.
Si uso LOOCV para establecer qué semilla funciona mejor, ¿es este un método válido?
cross-validation
random-forest
usuario2723494
fuente
fuente
Respuestas:
La respuesta es no .
Su modelo da un resultado diferente para cada semilla que usa. Este es el resultado de la naturaleza no determinista del modelo. Al elegir una semilla específica que maximiza el rendimiento en el conjunto de validación, significa que elige el "arreglo" que mejor se ajusta a este conjunto. Sin embargo, esto no garantiza que el modelo con esta semilla funcione mejor en un conjunto de prueba separado . Esto simplemente significa que ha sobreajustado el modelo en el conjunto de validación .
Este efecto es la razón por la que ve a muchas personas que ocupan un lugar destacado en las competiciones (por ejemplo, kaggle) en el conjunto de pruebas públicas, caen lejos en el conjunto de pruebas ocultas. Este enfoque no se considera de ninguna manera el enfoque correcto.
fuente