En todos los documentos forestales aleatorios (de regresión) que he leído, cuando llega el momento de reunir las predicciones de todos los árboles, tomamos el valor promedio como la predicción.
Mi pregunta es ¿por qué hacemos eso?
¿Existe una justificación estadística para tomar el promedio?
EDITAR: Para aclarar la pregunta, sé que es posible usar otras funciones de agregación (usamos el modo de clasificación), estoy interesado principalmente en si existe alguna justificación teórica detrás de la elección de la función promedio.
Respuestas:
Siempre he pensado en el promedio en términos del equilibrio de sesgo-varianza. Si no recuerdo mal, Leo Breiman insinuó esto en el periódico aleatorio de Forest con su declaración "... son más robustos con respecto al ruido".
La explicación es la siguiente: básicamente, está tomando un montón de árboles que crecen en toda su longitud, sin poda, por lo que sabe que cada uno estará sesgado por sí mismo. Sin embargo, el muestreo aleatorio que induce a cada árbol en el bosque debería inducir un sesgo bajo tan a menudo como un sesgo excesivo. Entonces, al tomar un promedio, elimina el sesgo de cada árbol: la cancelación de sesgos sobre + bajo. Esperemos que en el proceso también reduzca la varianza en cada árbol y que la varianza general también se reduzca.
Como lo indican las otras respuestas a la publicación, esta podría no ser la única razón para promediar.
fuente
Cuando usas el promedio, estás diciendo dos cosas:
No debe esperar que haya grandes valores atípicos, ya que puede hacer que el tamaño de la muestra sea lo suficientemente grande como para que importen menos en el promedio y ya que esperaría un mínimo de estabilidad de las predicciones de los árboles individuales.
No hay razón para pensar que algunos árboles deberían tener más peso predictivo que otros, ni una forma de determinar tales pesos.
Realmente no puedes usar el modo ya que las predicciones están en una escala continua. Por ejemplo, si tuviera las predicciones 80 80 100 101 99 98 97 102 103 104 96, el modo predeciría 80. Eso no puede ser lo que desea. Si todos los valores tienen decimales distintos, el modo no sabría cómo decidir.
Existen otros promedios que la media aritmética, como la media geométrica y la media armónica. Están diseñados para reducir el promedio si hay algunos valores bajos en la serie de datos. Eso tampoco es lo que quieres aquí.
fuente
Por supuesto, puede usar cualquier función de agregación que sea útil en su situación particular. La mediana es una buena manera de hacer que una pequeña muestra sea robusta frente a los valores atípicos. En los bosques de regresión, generalmente puede influir en el tamaño de la muestra para evitar tener el problema de los tamaños de muestra pequeños. Por lo tanto, la media parece razonable en una fracción muy grande de casos de uso.
fuente
La clasificación aleatoria del bosque ( es decir, no la estimación de probabilidad) se basa en el modo de las predicciones (votación mayoritaria), por lo que sí, puede agregar los resultados a su gusto.
fuente
Lo primero es lo primero. Como muchas otras personas dijeron que puede usar otras métricas, pero el promedio es la opción "predeterminada".
Como opción predeterminada, uno establecería una función que funcione en algunas condiciones moderadas
Ahora, si lo piensa, un bosque aleatorio es una colección de árboles y cada uno de estos árboles tiene el objetivo de estimar su variable de respuesta numérica.
Además, como @David Ernst menciona correctamente:
Además, no hay razón para pensar que estos árboles tendrán diferentes desviaciones estándar. De nuevo, en condiciones suaves!
Dicho esto, el promedio debería funcionar debido a la ley débil de grandes números
fuente
En conjunto Promediar es priorizar más la confianza que la mayoría.
Ejemplo tienes 3 árboles,
2 de ellos votan A con 22% de confianza y 1 votó B con 90% de confianza.
Si usamos mayoría, obtenemos el voto A. Promedio de 22, N, N Si usamos confianza obtenemos el voto B. Promedio de 90, N, N
Tendría sentido ir con el 90% de confianza ya que es más seguro que la mayoría de los demás con solo un 22% de confianza.
fuente