Pregunta sobre la resta de la media en el tren / válido / conjunto de prueba

11

Estoy haciendo un preprocesamiento de datos y luego construiré un Convonets en mis datos.

Mi pregunta es: digamos que tengo un total de conjuntos de datos con 100 imágenes, estaba calculando la media de cada una de las 100 imágenes y luego las restaba de cada una de las imágenes, luego las dividía en el conjunto de tren y validación, y hago lo mismo pasos para procesar en un conjunto de pruebas dado, pero parece que esta no es una forma correcta de hacerlo de acuerdo con este enlace: http://cs231n.github.io/neural-networks-2/#datapre

" Escollo común . Un punto importante a destacar sobre el preprocesamiento es que cualquier estadística de preprocesamiento (por ejemplo, la media de datos) solo debe calcularse en los datos de entrenamiento, y luego aplicarse a los datos de validación / prueba. Por ejemplo, calcular la media y restarla de Sería un error cada imagen en todo el conjunto de datos y luego dividir los datos en divisiones de tren / val / prueba. "

Supongo que lo que dice el autor es que, no calcule la media y reste dentro de cada imagen, sino que calcule la media del conjunto de imágenes totales (es decir (imagen1 + ... + imagen100) / 100) y reste la media a cada una de la imagen.

No entiendo ¿alguien puede explicarlo? y posiblemente también explique por qué lo que estaba haciendo está mal (si de hecho está mal).

Sam
fuente
Bienvenido a la comunidad. Por favor vea mi respuesta a continuación.
usεr11852

Respuestas:

6

Supongamos que tiene 100 imágenes en total; 90 son datos de entrenamiento y 10 son datos de prueba.

μ^μ^

μ^μ^

usεr11852
fuente
μ^
1
μ^
@ usεr11852 ¿Por qué tener más información significa dañar nuestro modelo? Esto no causaría que la información de la "variable de respuesta fuera de muestra" interfiera de alguna manera en nuestro entrenamiento, ¿verdad? Entonces, ¿por qué el error del tren sería bajo?
GeneX
1
μ^
... por casualidad, todas las personas mayores terminan en el set de prueba. Si calculamos la edad media solo en nuestro conjunto de entrenamiento, obviamente obtendremos una edad media menor que la que tiene toda nuestra muestra. El uso de esta edad media obviamente sesgada probablemente deteriorará el Arendimiento del modelo si Ano se generaliza bien a diferentes edades. Si calculamos la edad media en todo el conjunto de datos, obtendremos una edad media más representativa. Si ahora usamos esta sesgada-media de edad en el modelo Aque probablemente obtener un mejor rendimiento que antes a pesar de Ano generalizar así a las diferentes edades).
usεr11852