Los bosques aleatorios funcionan creando un conjunto de árboles de decisión donde cada árbol se crea utilizando una muestra de arranque de los datos de entrenamiento originales (muestra de variables de entrada y observaciones).
¿Se puede aplicar un proceso similar para la regresión lineal? Cree k modelos de regresión lineal utilizando una muestra aleatoria de bootstrap para cada una de las k regresiones
¿Cuáles son las razones para NO crear una "regresión aleatoria" como modelo?
Gracias. Si hay algo que estoy malentendiendo fundamentalmente, hágamelo saber.
a_0 + a_1 * x_1 + ... + a_d * x_d
, la función lineal promedio resultante (después de la agregación de bootstrap) todavía tiene la misma forma funcional lineal con la que comienza (es decir, el "alumno base").Respuestas:
Estoy parcialmente en desacuerdo con las respuestas actuales porque la metodología de bosque aleatorio se basa en la introducción de la varianza (CARTs construidas en muestras bootstrapped + método de subespacio aleatorio) para hacerlas independientes. Una vez que tiene árboles ortogonales, el promedio de sus predicciones tiende (en muchos casos) a ser mejor que la predicción del árbol promedio (debido a la desigualdad de Jensen). Aunque los CART tienen ventajas notables cuando están sujetos a este tratamiento, esta metodología definitivamente se aplica a cualquier modelo y los modelos lineales no son una excepción. Aquí hay un paquete R que es exactamente lo que está buscando. Presenta un buen tutorial sobre cómo ajustarlos e interpretarlos y bibliografía sobre el tema: Modelos lineales generalizados aleatorios .
fuente
Para poner la respuesta de @ziggystar en términos de jerga de aprendizaje automático: la idea detrás de las técnicas de agregación bootstrap (por ejemplo, bosques aleatorios) es ajustar muchos modelos de baja polarización y alta varianza a los datos con algún elemento de "aleatoriedad" o "inestabilidad". En el caso de los bosques aleatorios, la inestabilidad se agrega a través de bootstrapping y al elegir un conjunto aleatorio de características para dividir cada nodo del árbol. Al promediar estos árboles ruidosos, pero de bajo sesgo, se alivia la gran variación de cualquier árbol individual.
Mientras que los árboles de regresión / clasificación son modelos de "bajo sesgo y alta varianza", los modelos de regresión lineal son típicamente lo opuesto: "alto sesgo y baja varianza". Por lo tanto, el problema que a menudo se enfrenta con los modelos lineales es reducir el sesgo, no reducir la varianza. La agregación Bootstrap simplemente no está hecha para hacer esto.
Un problema adicional es que el arranque puede no proporcionar suficiente "aleatoriedad" o "inestabilidad" en un modelo lineal típico. Esperaría que un árbol de regresión sea más sensible a la aleatoriedad de las muestras de bootstrap, ya que cada hoja generalmente solo contiene un puñado de puntos de datos. Además, los árboles de regresión se pueden cultivar estocásticamente dividiendo el árbol en un subconjunto aleatorio de variables en cada nodo. Vea esta pregunta anterior para saber por qué esto es importante: ¿Por qué los bosques aleatorios se dividen en función de m características aleatorias?
Dicho todo esto, ciertamente puede usar bootstrapping en modelos lineales [LINK] , y esto puede ser muy útil en ciertos contextos. Sin embargo, la motivación es muy diferente de las técnicas de agregación bootstrap.
fuente
Y aquí es por qué no es tan atractivo hacer algo "aleatorio" con modelos lineales como lo es con árboles de decisión:
Es muy probable que un árbol de decisión grande creado a partir de una muestra grande sobreajuste los datos, y el método forestal aleatorio combate este efecto al confiar en el voto de muchos árboles pequeños.
La regresión lineal, por otro lado, es un modelo que no es muy propenso al sobreajuste y, por lo tanto, no se ve perjudicado al entrenarlo en la muestra completa al principio. E incluso si tiene muchas variables regresivas, puede aplicar otras técnicas, como la regularización, para combatir el sobreajuste.
fuente
fuente