Creo que esta es una pregunta directa, aunque el razonamiento detrás de por qué o por qué no puede no serlo. La razón por la que pregunto es que recientemente escribí mi propia implementación de un RF y, aunque funciona bien, no está funcionando tan bien como esperaba (según el conjunto de datos de la competencia Kaggle Photo Quality Prediction , los puntajes ganadores y algunos de la información posterior disponible sobre qué técnicas se usaron).
Lo primero que hago en tales circunstancias es el error de predicción de la trama para mi modelo, por lo que para cada valor de predicción determinado determino el sesgo medio (o desviación) del valor objetivo correcto. Para mi RF obtuve esta trama:
Me pregunto si este es un patrón de sesgo comúnmente observado para RF (de lo contrario, tal vez podría ser algo específico para el conjunto de datos y / o mi implementación). Por supuesto, puedo usar este gráfico para mejorar las predicciones al usarlo para compensar el sesgo, pero me pregunto si hay un error o deficiencia más fundamental en el modelo de RF en sí que necesita abordarse. Gracias.
== ADDENDUM ==
Mi investigación inicial es en la entrada de este blog Random Forest Bias - Update
fuente
Respuestas:
(Estoy lejos de ser experto. Estas son solo reflexiones de un estadístico junior que se ha ocupado de cuestiones diferentes, pero poco análogas. Mi respuesta podría estar fuera de contexto).
Dada una nueva muestra para predecir, y un oráculo que tiene acceso a un conjunto de entrenamiento mucho más grande, entonces quizás la "mejor" y más honesta predicción sea decir "Predigo con un 60% de probabilidad de que esto pertenezca a la clase Roja en lugar de la clase azul ".
Daré un ejemplo más concreto. Imagine que, en nuestro gran conjunto de entrenamiento, hay un gran conjunto de muestras que son muy similares a nuestra nueva muestra. De estos, el 60% son azules y el 40% son rojos. Y parece que no hay nada que distinga a los azules de los rojos. En tal caso, es obvio que un 60% / 40% es la única predicción que una persona cuerda puede hacer.
Por supuesto, no tenemos tal oráculo, en cambio tenemos muchos árboles. Los árboles de decisión simples son incapaces de hacer estas predicciones del 60% / 40% y, por lo tanto, cada árbol hará una predicción discreta (Rojo o Azul, nada intermedio). Como esta nueva muestra cae justo en el lado rojo de la superficie de decisión, encontrará que casi todos los árboles predicen rojo en lugar de azul. Cada árbol pretende ser más seguro de lo que es y comienza una estampida hacia una predicción sesgada.
El problema es que tendemos a malinterpretar la decisión de un solo árbol. Cuando un solo pone de árboles en un nodo de la clase Roja, que deberían no interpretarlo como una predicción 100% / 0% desde el árbol. (No solo digo que 'sabemos' que probablemente sea una mala predicción. Estoy diciendo algo más fuerte, es decir, que debemos tener cuidado de interpretar que es la predicción del árbol). No puedo expandirme concisamente sobre cómo solucionar esto. Pero es posible tomar prestadas ideas de áreas de estadísticas sobre cómo construir divisiones más 'difusas' dentro de un árbol para alentar a un solo árbol a ser más honesto sobre su incertidumbre. Entonces, debería ser posible promediar significativamente las predicciones de un bosque de árboles.
Espero que esto ayude un poco. Si no, espero aprender de cualquier respuesta.
fuente
Si. La mayoría de los árboles tienen un sesgo en las colas. Ver:
¿Cómo deben implementarse las divisiones del árbol de decisión al predecir variables continuas?
"Un problema potencial con los árboles es que tienden a encajar mal en las colas. Piense en un nodo terminal que capture el rango bajo del conjunto de entrenamiento. Predecirá usando la media de esos puntos de ajuste de entrenamiento, que siempre predecirán por debajo el resultado (ya que es la media) ".
fuente