En mi opinión, las variables altamente correlacionadas no causarán problemas de multicolinealidad en el modelo de bosque aleatorio (corríjame si me equivoco). Sin embargo, por otro lado, si tengo demasiadas variables que contienen información similar, ¿el modelo pesará demasiado en este conjunto en lugar de los demás?
Por ejemplo, hay dos conjuntos de información (A, B) con el mismo poder predictivo. Las variables , , ... contienen información A, y solo Y contiene información B. Cuando las variables de muestreo al azar, ¿crecerán la mayoría de los árboles en la información A, y como resultado la información B no se captura completamente?
multicollinearity
que NO tiene ningún efecto en el modelo de bosque aleatorio. Por ejemplo, aquí , la respuesta más votada dice que "ninguna parte del modelo forestal aleatorio se ve perjudicada por variables altamente colineales". ¿Tiene esto alguna validez?Hilo antiguo, pero no estoy de acuerdo con una declaración general de que la colinealidad no es un problema con los modelos forestales aleatorios. Cuando el conjunto de datos tiene dos (o más) características correlacionadas, desde el punto de vista del modelo, cualquiera de estas características correlacionadas se puede usar como predictor, sin preferencia concreta de una sobre las otras.
Sin embargo, una vez que se usa uno de ellos, la importancia de los demás se reduce significativamente ya que efectivamente la impureza que pueden eliminar ya está eliminada por la primera característica.
Como consecuencia, tendrán una menor importancia reportada. Esto no es un problema cuando queremos usar la selección de características para reducir el sobreajuste, ya que tiene sentido eliminar características que en su mayoría están duplicadas por otras características, pero al interpretar los datos , puede llevar a la conclusión incorrecta de que una de las variables es un predictor fuerte mientras que los otros en el mismo grupo no son importantes, mientras que en realidad son muy cercanos en términos de su relación con la variable de respuesta.
El efecto de este fenómeno se reduce algo gracias a la selección aleatoria de características en la creación de cada nodo, pero en general el efecto no se elimina por completo.
Lo anterior en su mayoría citado desde aquí: Seleccionar buenas características
fuente