Tengo un conjunto de datos con 20000 muestras, cada una tiene 12 características diferentes. Cada muestra está en la categoría 0 o 1. Quiero entrenar una red neuronal y un bosque de decisión para clasificar las muestras de modo que pueda comparar los resultados y ambas técnicas.
Lo primero con lo que me topé es la normalización adecuada de los datos. Una característica está en el rango , otra en y hay una característica que toma principalmente el valor 8 y, a veces, 7. Entonces, mientras leo en diferentes fuentes, la normalización adecuada de los datos de entrada Es crucial para las redes neuronales. Como descubrí, hay muchas formas posibles de normalizar los datos, por ejemplo:
- Normalización mínima-máxima : el rango de entrada se transforma linealmente al intervalo (o alternativamente , ¿eso importa?)
- Normalización de la puntuación Z : los datos se transforman para tener media cero y varianza unitaria:
¿Qué normalización debería elegir? ¿Se necesita también la normalización para los bosques de decisión? Con la normalización de Z-Score, las diferentes características de mis datos de prueba no se encuentran en el mismo rango. ¿Podría ser esto un problema? ¿Debería normalizarse cada función con el mismo algoritmo, de modo que decida usar Min-Max para todas las funciones o Z-Score para todas las funciones?
¿Existen combinaciones donde los datos se asignan a y también tienen una media cero (lo que implicaría una transformación no lineal de los datos y, por lo tanto, un cambio en la varianza y otras características de los datos de entrada).
Me siento un poco perdido porque no puedo encontrar referencias que respondan estas preguntas.
fuente