En el modelo predictivo aplicado de Kuhn y Johnson, los autores escriben:
Finalmente, estos árboles sufren de sesgo de selección: los predictores con un mayor número de valores distintos se ven favorecidos sobre los predictores más granulares (Loh y Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh y Shih (1997) comentaron que “el peligro ocurre cuando un conjunto de datos consiste en una mezcla de variables informativas y de ruido, y las variables de ruido tienen muchas más divisiones que las variables informativas. Entonces existe una alta probabilidad de que las variables de ruido se elijan para dividir los nodos superiores del árbol. La poda producirá un árbol con estructura engañosa o ningún árbol en absoluto ".
Kuhn, Max; Johnson, Kjell (17/05/2013). Modelado predictivo aplicado (ubicaciones de Kindle 5241-5247). Springer Nueva York. Versión Kindle.
Continúan describiendo algunas investigaciones sobre la construcción de árboles imparciales. Por ejemplo, el modelo GUÍA de Loh.
Manteniéndome lo más estrictamente posible dentro del marco de CART, me pregunto si hay algo que pueda hacer para minimizar este sesgo de selección. Por ejemplo, quizás agrupar / agrupar predictores de alta cardinalidad es una estrategia. ¿Pero hasta qué punto se debe hacer la agrupación? Si tengo un predictor con 30 niveles, ¿debo agrupar a 10 niveles? ¿15? 5?
Respuestas:
Según su comentario, iría con un marco de inferencia condicional. El código está fácilmente disponible en R usando la función ctree en el paquete de fiesta. Tiene una selección variable imparcial, y aunque el algoritmo subyacente sobre cuándo y cómo hacer divisiones es diferente en comparación con CART, la lógica es esencialmente la misma. Otro beneficio esbozado por los autores (vea el documento aquí ) es que no tiene que preocuparse tanto por podar el árbol para evitar el sobreajuste. El algoritmo realmente se encarga de eso mediante el uso de pruebas de permutación para determinar si una división es "estadísticamente significativa" o no.
fuente