¿La normalización de datos (para tener una media de desviación estándar de unidad y cero) antes de realizar una validación cruzada repetida de k veces tiene alguna consecuencia negativa como el sobreajuste?
Nota: esto es para una situación donde #cases> total #características
Estoy transformando algunos de mis datos usando una transformación de registro, luego normalizo todos los datos como se indica arriba. Luego estoy realizando la selección de funciones. A continuación, aplico las características seleccionadas y los datos normalizados a una validación cruzada repetida de 10 veces para intentar estimar el rendimiento del clasificador generalizado y me preocupa que usar todos los datos para normalizar pueda no ser apropiado. ¿Debo normalizar los datos de prueba para cada pliegue utilizando los datos de normalización obtenidos de los datos de entrenamiento para ese pliegue?
Cualquier opinión recibida con gratitud! Disculpas si esta pregunta parece obvia.
Editar: Al probar esto (en línea con las sugerencias a continuación), descubrí que la normalización antes del CV no hizo mucha diferencia en cuanto al rendimiento en comparación con la normalización dentro del CV.
fuente
La validación cruzada se ve mejor como un método para estimar el rendimiento de un procedimiento estadístico, en lugar de un modelo estadístico. Por lo tanto, para obtener una estimación de rendimiento imparcial, debe repetir cada elemento de ese procedimiento por separado en cada pliegue de la validación cruzada, lo que incluiría la normalización. Entonces diría normalizar en cada pliegue.
El único momento en que esto no sería necesario es si el procedimiento estadístico fuera completamente insensible a la escala y al valor medio de los datos.
fuente
Creo que si la normalización solo involucra dos parámetros y tiene una muestra de buen tamaño, eso no será un problema. Me preocuparía más la transformación y el proceso de selección de variables. La validación cruzada 10 veces parece estar de moda hoy en día. ¿Nadie usa bootstrap 632 o 632+ para la estimación de la tasa de error del clasificador como lo sugirió primero Efron (1983) en JASA y luego siguió en un artículo de Efron y Tibshirani con el 632+?
fuente
Personalmente me gusta el método .632. Lo cual es básicamente un boostrapping con reemplazo. Si hace eso y elimina los duplicados, obtendrá 632 entradas de un conjunto de entrada de 1000. Un poco ordenado.
fuente