Tengo datos con unos pocos miles de funciones y quiero hacer una selección de funciones recursivas (RFE) para eliminar las que no son informativas. Hago esto con caret y RFE. Sin embargo, comencé a pensar, si quiero obtener el mejor ajuste de regresión (bosque aleatorio, por ejemplo), ¿cuándo debo realizar el ajuste de parámetros ( mtrypara RF)? Es decir, según entiendo, caret entrena RF repetidamente en diferentes subconjuntos de características con una frecuencia fija. Supongo que el valor óptimo se mtrydebe encontrar una vez finalizada la selección de características, pero ¿influirá el mtryvalor que utiliza caret en el subconjunto de características seleccionado? Usar caret con low mtryes mucho más rápido, por supuesto.
Espero que alguien pueda explicarme esto.

Respuestas:
Una cosa que quizás desee considerar son los bosques aleatorios regularizados, que están específicamente diseñados para la selección de características. Este artículo explica el concepto y cómo difieren de los bosques aleatorios normales
Selección de características a través de árboles regularizados
También hay un paquete CRAN RRF que se basa en randomForest que le permitirá implementarlos fácilmente en R. He tenido buena suerte con esta metodología.
Con respecto a su pregunta inicial, el único consejo que puedo dar es que si tiene mucha colinealidad, entonces necesita usar árboles más pequeños. Esto permite que el algoritmo determine la importancia con menos interferencia de los efectos de colinealidad.
fuente
Es posible que pueda usar
caretFuncsalgo como esto:Además, uno puede consultar el
valSelRFpaquete. No estoy seguro de cómo difiere de loregularized random forestmencionado aquí.fuente