¿Tiene que normalizar los datos al construir árboles de decisión con R?

10

Entonces, nuestro conjunto de datos de esta semana tiene 14 atributos y cada columna tiene valores muy diferentes. Una columna tiene valores inferiores a 1, mientras que otra columna tiene valores que van de tres a cuatro dígitos enteros.

Aprendimos normalización la semana pasada y parece que se supone que debes normalizar los datos cuando tienen valores muy diferentes. Para los árboles de decisión, ¿es el caso el mismo?

No estoy seguro de esto, pero ¿la normalización afectaría el árbol de decisión resultante del mismo conjunto de datos? No parece que deba, pero ...

Jae
fuente

Respuestas:

13

Los tipos más comunes de árboles de decisión que encuentra no se ven afectados por ninguna transformación monotónica. Entonces, siempre que conserve el orden, los árboles de decisión son los mismos (obviamente, por el mismo árbol aquí entiendo la misma estructura de decisión, no los mismos valores para cada prueba en cada nodo del árbol).

La razón por la que sucede es porque funciona la impureza habitual. Para encontrar la mejor división, busca en cada dimensión (atributo) un punto de división que es básicamente una cláusula if que agrupa los valores objetivo correspondientes a instancias que tienen un valor de prueba menor que el valor dividido, y a la derecha los valores mayores que iguales. Esto sucede para los atributos numéricos (que creo que es su caso porque no sé cómo normalizar un atributo nominal). Ahora puede observar que el criterio es menor o mayor que. Lo que significa que la información real de los atributos para encontrar la división (y el árbol completo) es solo el orden de los valores. Lo que significa que, siempre y cuando transforme sus atributos de tal manera que el pedido original esté reservado, obtendrá el mismo árbol.

No todos los modelos son insensibles a este tipo de transformación. Por ejemplo, los modelos de regresión lineal dan los mismos resultados si multiplica un atributo con algo diferente de cero. Obtendrá diferentes coeficientes de regresión, pero el valor predicho será el mismo. Este no es el caso cuando toma un registro de esa transformación. Entonces, para la regresión lineal, por ejemplo, la normalización es inútil ya que proporcionará el mismo resultado.

Sin embargo, este no es el caso con una regresión lineal penalizada, como la regresión de cresta. En las regresiones lineales penalizadas se aplica una restricción a los coeficientes. La idea es que la restricción se aplique a la suma de una función de coeficientes. Ahora, si infla un atributo, el coeficiente se desinflará, lo que significa que al final la penalización por ese coeficiente se modificará artificialmente. En este tipo de situación, se normalizan los atributos para que cada coeficiente sea limitado de manera 'justa'.

Espero eso ayude

rapaio
fuente