En Los elementos del aprendizaje estadístico , he encontrado la siguiente declaración:
Hay una calificación: los pasos iniciales de detección no supervisada se pueden realizar antes de dejar muestras. Por ejemplo, podríamos seleccionar los 1000 predictores con la mayor varianza en las 50 muestras, antes de comenzar la validación cruzada. Dado que este filtrado no involucra las etiquetas de clase, no les da a los predictores una ventaja injusta.
¿Es esto realmente válido? Quiero decir, al filtrar los atributos de antemano, no estamos imitando los datos de entrenamiento / nuevo entorno de datos, entonces, ¿importa esto que el filtrado que estamos realizando no esté supervisado? ¿No es mejor hacer todos los pasos de preprocesamiento dentro del proceso de validación cruzada? Si ese no es el caso, significa que todo el preprocesamiento sin supervisión se puede realizar de antemano, incluida la normalización de funciones / PCA, etc. Pero al hacer esto en todo el conjunto de entrenamiento, en realidad estamos filtrando algunos datos al conjunto de entrenamiento. Estoy de acuerdo en que con un conjunto de datos relativamente estable, estas diferencias probablemente deberían ser muy pequeñas, pero eso no significa que no existan, ¿verdad? ¿Cuál es la forma correcta de pensar sobre esto?
Ruego diferir en esta pregunta con la opinión de @ AmiTavory y con los Elementos del aprendizaje estadístico.
Al provenir de un campo aplicado con tamaños de muestra muy bajos, tengo la experiencia de que también los pasos de preprocesamiento sin supervisión pueden introducir un sesgo severo.
En mi campo, eso sería con mayor frecuencia PCA para la reducción de la dimensionalidad antes de entrenar a un clasificador. Si bien no puedo mostrar los datos aquí, he visto PCA + (LDA con validación cruzada) vs.validado cruzado (PCA + LDA) subestimando la tasa de error en aproximadamente un orden de magnitud . (Esto suele ser un indicador de que el PCA no es estable).
En cuanto a la argumentación de la "ventaja injusta" de los Elementos, si se examina la varianza de los casos de prueba + prueba, terminamos con características que funcionan bien tanto con la capacitación como con los casos de prueba. Por lo tanto, creamos una profecía autocumplida aquí, que es la causa del sesgo demasiado optimista. Este sesgo es bajo si tiene tamaños de muestra razonablemente cómodos.
Por lo tanto, recomiendo un enfoque que sea un poco más conservador que los Elementos:
Dicho esto, también la validación cruzada es solo un atajo para hacer un estudio de validación adecuado. Por lo tanto, puede argumentar con practicidad:
Puede verificar si el preprocesamiento en cuestión produce resultados estables (puede hacerlo, por ejemplo, mediante validación cruzada). Si ya lo encuentra perfectamente estable con tamaños de muestra más bajos, en mi humilde opinión, puede argumentar que no se introducirá mucho sesgo al sacarlo de la validación cruzada.
Sin embargo, para citar a un supervisor anterior: el tiempo de cálculo no es un argumento científico.
A menudo hago una "vista previa" de algunos pliegues y pocas iteraciones para la validación cruzada para asegurarme de que todo el código (incluido el resumen / gráficos de los resultados) y luego lo dejo durante la noche o durante el fin de semana más o menos en el servidor durante un validación cruzada más fina.
fuente