¿Los estimadores de árboles SIEMPRE están sesgados?

9

Estoy haciendo una tarea sobre árboles de decisión, y una de las preguntas que tengo que responder es "¿Por qué los estimadores están construidos a partir de árboles sesgados, y cómo ayuda el embolsado a reducir su variación?".

Ahora, sé que los modelos sobreajustados tienden a tener un sesgo realmente bajo, porque intentan ajustar todos los puntos de datos. Y tenía un script en Python que ajustaba un árbol a algún conjunto de datos (con una sola característica. Era solo una sinusoide, con algunos puntos de desconexión, la imagen a continuación). Entonces, me pregunté "bueno, si realmente sobreajusto los datos, ¿puedo llevar el sesgo a cero?". Y resultó que, incluso con una profundidad de 10000, todavía hay algunos puntos a través de los cuales la curva no pasa.

ingrese la descripción de la imagen aquí

Intenté buscar por qué, pero realmente no pude encontrar una explicación. Supongo que puede haber algunos árboles que atraviesen perfectamente todos los puntos, y que los que obtuve fueron simplemente "mala suerte". O que tal vez un conjunto de datos diferente podría haberme dado un resultado imparcial (¿tal vez una sinusoide perfecta?). O incluso eso, tal vez los recortes realizados al principio hicieron imposible que más recortes separen completamente todos los puntos.

Entonces, teniendo en cuenta este conjunto de datos (ya que podría ser diferente para otros), mi pregunta es: ¿es posible sobreajustar un árbol hasta el punto en que el sesgo llegue a cero, o siempre habrá algún sesgo, incluso si realmente ¿pequeña? Y si siempre hay al menos algún sesgo, ¿por qué sucede eso?

PD: No sé si podría ser relevante, pero utilicé DecisionTreeRegressorfrom sklearnpara ajustar el modelo a los datos.

Berna
fuente
3
¡Bienvenido a nuestro sitio! Tenga en cuenta que no es necesario agregar un "gracias de antemano" en su pregunta, ¡lo mejor para expresar su agradecimiento es esperar hasta obtener algunas respuestas y aceptar (marca verde) lo que más le haya ayudado! Si aún no lo ha hecho, ¿por qué no echa un vistazo a nuestro recorrido para ver cómo funciona este sitio?
Silverfish
3
Considere una función y = 0, y está tratando de ajustar y = f (x), donde x toma algunos valores aleatorios. ¿Está sesgado un estimador de árbol de decisión en este caso de esquina?
jbowman

Respuestas:

10

Un modelo de árbol de decisión no es siempre un sesgo más que cualquier otro modelo de aprendizaje.

X[0 0,1]

YX

YXyo<.5(X)+norte(0 0,1)

YXX

YXX+norte(0 0,1)

Si ajustamos un árbol de decisión en ambas situaciones, el modelo no está sesgado en la primera situación, pero está sesgado en la segunda. Esto se debe a que un árbol binario de una división puede recuperar el verdadero modelo de datos subyacente en la primera situación. En el segundo, lo mejor que puede hacer un árbol es aproximar la función lineal agitando los pasos a intervalos cada vez más finos: un árbol de profundidad finita solo puede acercarse tanto.

Si ajustamos una regresión lineal en ambas situaciones, el modelo está sesgado en la primera situación, pero no está sesgado en la segunda.

Entonces, para saber si un modelo está sesgado, debe saber cuál es el verdadero mecanismo de datos subyacente. En situaciones de la vida real, nunca se sabe esto, por lo que nunca se puede decir si un modelo en la vida real está sesgado o no. A veces, creemos que tenemos toda la razón durante mucho tiempo, pero luego surge el sesgo con una comprensión más profunda (la gravedad de Newton a la gravedad de Einstein es al menos un ejemplo apócrifo).

En cierto sentido, esperamos que la mayoría de los procesos del mundo real (con algunas excepciones) sean tan incognoscibles, que una aproximación lo suficientemente razonable de la verdad es que todos nuestros modelos están sesgados. De alguna manera dudo que la pregunta pida una discusión filosófica profunda sobre la inutilidad esencial de modelar procesos estadísticos complejos, pero es divertido pensar en eso.

Matthew Drury
fuente
0

El hecho de que algunos puntos en sus datos aún no se pronostiquen podría deberse a algo llamado error irreducible. La teoría es que en el aprendizaje automático hay un error reducible e irreducible. La idea del error irreducible es que no importa cuán bueno sea su modelo, nunca será perfecto. Esto se debe a algunas razones. Uno, no importa cuán robustas sean sus características de entrenamiento, siempre habrá alguna característica oculta que afecte el resultado que sus datos de entrenamiento no incluyen. Otra razón es que en casi todos los datos, es probable que haya algunos valores atípicos. Siempre puede intentar hacer que sus modelos sean lo más robustos posible para los valores atípicos, pero no importa cuánto lo intente, siempre existirán valores atípicos. (Esto no significa que no deba pensar en valores atípicos al crear sus modelos). Y un último detalle es que no

jweir136
fuente