Tengo una pregunta específica sobre la validación en la investigación de aprendizaje automático.
Como sabemos, el régimen de aprendizaje automático les pide a los investigadores que capaciten a sus modelos en los datos de capacitación, que elijan entre los modelos candidatos por conjunto de validación e informen la precisión del conjunto de prueba. En un estudio muy riguroso, el conjunto de prueba solo se puede usar una vez. Sin embargo, nunca puede ser el escenario de la investigación, porque tenemos que mejorar nuestro rendimiento hasta que la precisión de la prueba sea mejor que los resultados de vanguardia antes de que podamos publicar (o incluso enviar) un documento.
Ahora viene el problema. Digamos que el 50% es el resultado más avanzado, y mi modelo generalmente puede alcanzar una precisión de 50-51, que es mejor en promedio.
Sin embargo, mi mejor precisión de validación (52%) produce una precisión de prueba muy baja, por ejemplo, 49%. Luego, tengo que informar el 49% como mi rendimiento general si no puedo mejorar aún más la validación acc, lo que creo que no es de esperar. Esto realmente me impide estudiar el problema, pero no le importa a mis compañeros, porque no ven el 52% acc, lo que creo que es un caso atípico.
Entonces, ¿cómo suele ser la gente en su investigación?
La validación de ps k-fold no es de ayuda, porque la misma situación aún puede suceder.
seed
para tener en cuenta la reproducibilidad. Sospecho que su procedimiento de CV tiene alguna aleatorización que, cuando se repite, puede arrojar resultados ligeramente diferentes (pero esto es solo una suposición). Realmente sugiero que explore otros modelos o transformación de datos para intentar mejorar su rendimiento.