¿Las variables altamente correlacionadas en el bosque aleatorio distorsionan la precisión y la selección de características?

32

En mi opinión, las variables altamente correlacionadas no causarán problemas de multicolinealidad en el modelo de bosque aleatorio (corríjame si me equivoco). Sin embargo, por otro lado, si tengo demasiadas variables que contienen información similar, ¿el modelo pesará demasiado en este conjunto en lugar de los demás?

Por ejemplo, hay dos conjuntos de información (A, B) con el mismo poder predictivo. Las variables , , ... contienen información A, y solo Y contiene información B. Cuando las variables de muestreo al azar, ¿crecerán la mayoría de los árboles en la información A, y como resultado la información B no se captura completamente?X1X2X1000

Yoki
fuente

Respuestas:

19

Eso es correcto, pero por lo tanto, en la mayoría de los submuestreos donde la variable Y estaba disponible, produciría la mejor división posible.

Puede intentar aumentar la frecuencia, para asegurarse de que esto suceda con más frecuencia.

Puede intentar la poda de correlación recursiva, es decir, a su vez, eliminar una de las dos variables que juntas tienen la correlación más alta. Un umbral razonable para detener esta poda podría ser que cualquier par de correlaciones (pearson) sea inferior a R2<.7

Puede intentar la poda recursiva de importancia variable, que es a su vez eliminar, por ejemplo, 20% con la menor importancia variable. Pruebe, por ejemplo, rfcv del paquete randomForest.

Puede probar alguna descomposición / agregación de sus variables redundantes.

Soren Havelund Welling
fuente
3
En algunas fuentes, he visto multicollinearityque NO tiene ningún efecto en el modelo de bosque aleatorio. Por ejemplo, aquí , la respuesta más votada dice que "ninguna parte del modelo forestal aleatorio se ve perjudicada por variables altamente colineales". ¿Tiene esto alguna validez?
Hunle
55
Creo que estás leyendo el NO demasiado literalmente. Los modelos de RF manejan variables bastante bien correlacionadas / redundantes, sí. Pero eso no significa que su modelo necesariamente se beneficie de las acumulaciones de variables no relacionadas o completamente redundantes (por ejemplo, recombinaciones lineales), tampoco se bloquea. Solo abogo por una modesta selección de variables, para esperar una modesta mejora del rendimiento del modelo con validación cruzada.
Soren Havelund Welling
24

Hilo antiguo, pero no estoy de acuerdo con una declaración general de que la colinealidad no es un problema con los modelos forestales aleatorios. Cuando el conjunto de datos tiene dos (o más) características correlacionadas, desde el punto de vista del modelo, cualquiera de estas características correlacionadas se puede usar como predictor, sin preferencia concreta de una sobre las otras.

Sin embargo, una vez que se usa uno de ellos, la importancia de los demás se reduce significativamente ya que efectivamente la impureza que pueden eliminar ya está eliminada por la primera característica.

Como consecuencia, tendrán una menor importancia reportada. Esto no es un problema cuando queremos usar la selección de características para reducir el sobreajuste, ya que tiene sentido eliminar características que en su mayoría están duplicadas por otras características, pero al interpretar los datos , puede llevar a la conclusión incorrecta de que una de las variables es un predictor fuerte mientras que los otros en el mismo grupo no son importantes, mientras que en realidad son muy cercanos en términos de su relación con la variable de respuesta.

El efecto de este fenómeno se reduce algo gracias a la selección aleatoria de características en la creación de cada nodo, pero en general el efecto no se elimina por completo.

Lo anterior en su mayoría citado desde aquí: Seleccionar buenas características

GDB
fuente
3
Este ha sido mi artículo de inicio para la selección de funciones con RF, ya que la importancia variable se usa a menudo como métrica bmcbioinformatics.biomedcentral.com/articles/10.1186/... Desde hace dos años me he vuelto más escéptico respecto a la selección de funciones. -validación si no se realiza dentro de un bucle externo de validación cruzada adecuado. Si se hace correctamente, a menudo veo poca o ninguna optimización del rendimiento de la predicción. Ahora uso principalmente la selección de funciones para simplificar las máquinas de predicción en la producción o para hacer que un modelo final sea más transparente.
Soren Havelund Welling
@SorenHavelundWelling: usted dice que "La selección de características produce una validación cruzada demasiado optimista si no se realiza dentro de un bucle de validación cruzada exterior adecuado". ¿Puede explicar eso o referirse a una fuente que lo explique? Va en contra de todo lo que he leído hasta ahora ...
Jack huyendo el