¿Cómo manejan los algoritmos de aprendizaje del árbol de decisión los valores perdidos?

Hay varios métodos utilizados por varios árboles de decisión. Simplemente ignorar los valores faltantes (como lo hace ID3 y otros algoritmos antiguos) o tratar los valores faltantes como otra categoría (en el caso de una característica nominal) no es un manejo real de los valores perdidos. Sin embargo, esos enfoques se utilizaron en las primeras etapas del desarrollo del árbol de decisión.

Los enfoques de manejo real de datos faltantes no utilizan el punto de datos con valores faltantes en la evaluación de una división. Sin embargo, cuando se crean y entrenan nodos secundarios, esas instancias se distribuyen de alguna manera.

Conozco los siguientes enfoques para distribuir las instancias de valores faltantes a los nodos secundarios:

todo va al nodo que ya tiene el mayor número de instancias (CART, no es la regla principal)
distribuir a todos los niños, pero con pesos disminuidos, proporcional al número de instancias de cada nodo hijo (C45 y otros)
distribuir aleatoriamente a un solo nodo secundario, eventualmente de acuerdo con una distribución categórica (lo he visto en varias implementaciones de C45 y CART para un tiempo de ejecución más rápido)
construir, ordenar y usar sustitutos para distribuir instancias a un nodo secundario, donde los sustitutos son características de entrada que se asemejan mejor a cómo la característica de prueba envía instancias de datos al nodo secundario izquierdo o derecho (CART, si eso falla, se usa la regla de la mayoría)

rapaio
fuente

¿Cómo manejan los algoritmos de aprendizaje del árbol de decisión los valores perdidos?

Respuestas: