¿Por qué tomamos el promedio para las predicciones de regresión del bosque aleatorio?

8

En todos los documentos forestales aleatorios (de regresión) que he leído, cuando llega el momento de reunir las predicciones de todos los árboles, tomamos el valor promedio como la predicción.

Mi pregunta es ¿por qué hacemos eso?

¿Existe una justificación estadística para tomar el promedio?

EDITAR: Para aclarar la pregunta, sé que es posible usar otras funciones de agregación (usamos el modo de clasificación), estoy interesado principalmente en si existe alguna justificación teórica detrás de la elección de la función promedio.

Bar
fuente
1
Posiblemente relevante: stats.stackexchange.com/questions/174390/…
Matthew Drury
! ingrese la descripción de la imagen aquí. Aquí está la referencia: Sobre las probabilidades vs parte de las etiquetas de clase sebastianraschka.com/Articles/…
PauAI

Respuestas:

5

Siempre he pensado en el promedio en términos del equilibrio de sesgo-varianza. Si no recuerdo mal, Leo Breiman insinuó esto en el periódico aleatorio de Forest con su declaración "... son más robustos con respecto al ruido".

La explicación es la siguiente: básicamente, está tomando un montón de árboles que crecen en toda su longitud, sin poda, por lo que sabe que cada uno estará sesgado por sí mismo. Sin embargo, el muestreo aleatorio que induce a cada árbol en el bosque debería inducir un sesgo bajo tan a menudo como un sesgo excesivo. Entonces, al tomar un promedio, elimina el sesgo de cada árbol: la cancelación de sesgos sobre + bajo. Esperemos que en el proceso también reduzca la varianza en cada árbol y que la varianza general también se reduzca.

Como lo indican las otras respuestas a la publicación, esta podría no ser la única razón para promediar.

Lucas Roberts
fuente
1
Aceptando esto, ya que la respuesta parece que el promedio se elige por "intuición" en lugar de una motivación teórica particular, en contraste con la respuesta teóricamente motivada en GLM: stats.stackexchange.com/q/174390/16052
Bar
1
@Bar, con árboles de decisión, el problema es que la optimización global es NP-hard, por lo que se realiza una optimización codiciosa. La codiciosa optimización para cada árbol no nos dice sobre el bosque. Desafortunadamente, las matemáticas para este problema están menos desarrolladas de lo que cualquiera de nosotros quisiera.
Lucas Roberts
5

Cuando usas el promedio, estás diciendo dos cosas:

  1. Los valores atípicos no son un gran problema (de lo contrario, usaría la mediana o al menos filtraría algunos valores atípicos antes de tomar el promedio)
  2. Cada predicción tiene el mismo peso (de lo contrario, tendrá en cuenta los pesos)

No debe esperar que haya grandes valores atípicos, ya que puede hacer que el tamaño de la muestra sea lo suficientemente grande como para que importen menos en el promedio y ya que esperaría un mínimo de estabilidad de las predicciones de los árboles individuales.

No hay razón para pensar que algunos árboles deberían tener más peso predictivo que otros, ni una forma de determinar tales pesos.

Realmente no puedes usar el modo ya que las predicciones están en una escala continua. Por ejemplo, si tuviera las predicciones 80 80 100 101 99 98 97 102 103 104 96, el modo predeciría 80. Eso no puede ser lo que desea. Si todos los valores tienen decimales distintos, el modo no sabría cómo decidir.

Existen otros promedios que la media aritmética, como la media geométrica y la media armónica. Están diseñados para reducir el promedio si hay algunos valores bajos en la serie de datos. Eso tampoco es lo que quieres aquí.

David Ernst
fuente
1
Si los valores atípicos son una preocupación, existen alternativas entre la mediana y la media de la muestra, como las medias winorizadas o recortadas, que podrían brindar una buena protección de valores atípicos y ser más eficientes que la mediana.
kjetil b halvorsen
3

Por supuesto, puede usar cualquier función de agregación que sea útil en su situación particular. La mediana es una buena manera de hacer que una pequeña muestra sea robusta frente a los valores atípicos. En los bosques de regresión, generalmente puede influir en el tamaño de la muestra para evitar tener el problema de los tamaños de muestra pequeños. Por lo tanto, la media parece razonable en una fracción muy grande de casos de uso.

Bernhard
fuente
1

¿No sería posible también tomar la mediana, la moda o alguna otra función agregada?

La clasificación aleatoria del bosque ( es decir, no la estimación de probabilidad) se basa en el modo de las predicciones (votación mayoritaria), por lo que sí, puede agregar los resultados a su gusto.

Firebug
fuente
Gracias por la respuesta, agregué una aclaración a mi pregunta. Sé que es posible usar otras funciones de agregación, lo que me pregunto es si hay alguna razón teórica para la elección del promedio.
Bar
1

Lo primero es lo primero. Como muchas otras personas dijeron que puede usar otras métricas, pero el promedio es la opción "predeterminada".

Como opción predeterminada, uno establecería una función que funcione en algunas condiciones moderadas

Ahora, si lo piensa, un bosque aleatorio es una colección de árboles y cada uno de estos árboles tiene el objetivo de estimar su variable de respuesta numérica.

Además, como @David Ernst menciona correctamente:

No hay razón para pensar que algunos árboles deberían tener más pesos predictivos que otros, ni una forma de determinar dichos pesos.

Además, no hay razón para pensar que estos árboles tendrán diferentes desviaciones estándar. De nuevo, en condiciones suaves!

Dicho esto, el promedio debería funcionar debido a la ley débil de grandes números

Vasilis Vasileiou
fuente
-1

En conjunto Promediar es priorizar más la confianza que la mayoría.

Ejemplo tienes 3 árboles,

2 de ellos votan A con 22% de confianza y 1 votó B con 90% de confianza.

Si usamos mayoría, obtenemos el voto A. Promedio de 22, N, N Si usamos confianza obtenemos el voto B. Promedio de 90, N, N

Tendría sentido ir con el 90% de confianza ya que es más seguro que la mayoría de los demás con solo un 22% de confianza.

PauAI
fuente
No me queda claro cuál es su punto. ¿Puedes editar para aclararlo quizás? ¿Qué pasaría si hubiera 100 A y solo un B con el mismo conjunto de calificaciones de confianza?
mdewey