¿En qué implementaciones se requiere la escala variable de los árboles de decisión y la normalización (ajuste) de las variables (características)?

10

En muchos algoritmos de aprendizaje automático, el escalado de características (también conocido como escalado variable, normalización) es un paso de preprocesamiento común Wikipedia - Escalado de características - esta pregunta estaba cerrada Pregunta # 41704 - ¿Cómo y por qué funcionan la normalización y el escalado de características?

Tengo dos preguntas específicamente con respecto a los árboles de decisión:

  1. ¿Hay implementaciones de árbol de decisión que requieran escalado de características? Tengo la impresión de que la mayoría de los criterios de división de los algoritmos son indiferentes a la escala.
  2. Considere estas variables: (1) Unidades, (2) Horas, (3) Unidades por hora: ¿es mejor dejar estas tres variables "tal cual" cuando se introducen en un árbol de decisión o nos encontramos con algún tipo de conflicto? dado que la variable "normalizada" (3) se relaciona con (1) y (2)? Es decir, ¿atacaría esta situación al incluir las tres variables en la mezcla, o típicamente elegiría alguna combinación de las tres o simplemente usaría la función "normalizada / estandarizada" (3)?
JasonAizkalns
fuente

Respuestas:

6

Para 1, los árboles de decisión en general generalmente no requieren escala. Sin embargo, ayuda con la visualización / manipulación de datos, y podría ser útil si tiene la intención de comparar el rendimiento con otros datos u otros métodos como SVM.

Para 2, esta es una cuestión de ajuste. Las unidades / hora pueden considerarse un tipo de interacción variable y pueden tener un poder predictivo diferente de cada uno. Sin embargo, esto realmente depende de sus datos. Intentaría con y sin ver si hay alguna diferencia.

wwwslinger
fuente