Recomiendo echar un vistazo a "7.10.2 La validación cruzada de manera incorrecta y correcta" en http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf .
Los autores dan un ejemplo en el que alguien hace lo siguiente:
- Analice los predictores: encuentre un subconjunto de predictores "buenos" que muestren una correlación bastante fuerte (univariante) con las etiquetas de clase
- Usando solo este subconjunto de predictores, construya un clasificador multivariado.
- Utilice la validación cruzada para estimar los parámetros de ajuste desconocidos y para estimar el error de predicción del modelo final
Esto suena muy similar a hacer EDA en todos sus datos (es decir, entrenamiento más prueba) y usar el EDA para seleccionar predictores "buenos".
Los autores explican por qué esto es problemático: la tasa de error con validación cruzada será artificialmente baja, lo que podría llevarlo a pensar que ha encontrado un buen modelo.
Aplicar EDA en los datos de prueba es incorrecto.
La capacitación es el proceso de buscar las respuestas correctas para crear el mejor modelo. Este proceso no solo se limita a ejecutar código en los datos de entrenamiento. El uso de la información de EDA para decidir qué modelo usar, ajustar los parámetros, etc., es parte del proceso de capacitación y, por lo tanto, no se debe permitir el acceso a los datos de la prueba. Para ser sincero con usted mismo, use los datos de prueba solo para verificar el rendimiento de su modelo.
Además, si se da cuenta de que el modelo no funciona bien durante las pruebas y luego vuelve a ajustar su modelo, entonces eso tampoco es bueno. En su lugar, divide tus datos de entrenamiento en dos. Use uno para entrenamiento y otro para probar y ajustar sus modelos. Consulte ¿Cuál es la diferencia entre el conjunto de prueba y el conjunto de validación?
fuente
Después del párrafo de esta respuesta . Hastie explica además p.245 :
fuente
Realiza EDA en todo el conjunto de datos. Por ejemplo, si está utilizando la validación cruzada de dejar uno afuera , ¿cómo haría EDA solo en un conjunto de datos de capacitación ? En este caso, cada observación es entrenamiento y resistencia al menos una vez.
Entonces, no, usted forma su comprensión de los datos en toda la muestra. Si estás en la configuración industrial, es aún más evidente. Se espera que muestre las tendencias y la descripción general de los datos a las partes interesadas de la empresa, y lo hace en toda la muestra.
fuente