¿Es esencial hacer la normalización para SVM y Random Forest?

Respuestas:

29

La respuesta a su pregunta depende de la función de similitud / distancia que planea usar (en SVM). Si se trata de una distancia euclidiana simple (no ponderada), entonces si no normaliza sus datos, sin darse cuenta está dando algunas características más importantes que otras.

Por ejemplo, si su primera dimensión varía de 0-10 y la segunda dimensión de 0-1, una diferencia de 1 en la primera dimensión (solo una décima parte del rango) contribuye tanto en el cálculo de la distancia como dos valores muy diferentes en La segunda dimensión (0 y 1). Entonces, al hacer esto, estás exagerando pequeñas diferencias en la primera dimensión. Por supuesto, podría obtener una función de distancia personalizada o ponderar sus dimensiones según la estimación de un experto, pero esto conducirá a una gran cantidad de parámetros ajustables dependiendo de la dimensionalidad de sus datos. En este caso, la normalización es un camino más fácil (aunque no necesariamente ideal) porque al menos puede comenzar.

Finalmente, aún para SVM, otra cosa que puede hacer es crear una función de similitud en lugar de una función de distancia y conectarla como un núcleo (técnicamente esta función debe generar matrices positivas definidas). Esta función se puede construir de la manera que desee y puede tener en cuenta la disparidad en los rangos de características.

Por otro lado, para bosques aleatorios, dado que una característica nunca se compara en magnitud con otras características, los rangos no importan. Es solo el rango de una característica que se divide en cada etapa.

Ansari
fuente
12

Random Forest es invariante a las transformaciones monótonas de las características individuales. Las traducciones o las escalas por función no cambiarán nada para el Bosque aleatorio. SVM probablemente funcionará mejor si sus características tienen aproximadamente la misma magnitud, a menos que sepa a priori que algunas características son mucho más importantes que otras, en cuyo caso está bien que tenga una magnitud mayor.

rrenaud
fuente