Tengo datos con unos pocos miles de funciones y quiero hacer una selección de funciones recursivas (RFE) para eliminar las que no son informativas. Hago esto con caret y RFE. Sin embargo, comencé a pensar, si quiero obtener el mejor ajuste de regresión (bosque aleatorio, por ejemplo), ¿cuándo debo realizar el ajuste de parámetros ( mtry
para RF)? Es decir, según entiendo, caret entrena RF repetidamente en diferentes subconjuntos de características con una frecuencia fija. Supongo que el valor óptimo se mtry
debe encontrar una vez finalizada la selección de características, pero ¿influirá el mtry
valor que utiliza caret en el subconjunto de características seleccionado? Usar caret con low mtry
es mucho más rápido, por supuesto.
Espero que alguien pueda explicarme esto.
Respuestas:
Una cosa que quizás desee considerar son los bosques aleatorios regularizados, que están específicamente diseñados para la selección de características. Este artículo explica el concepto y cómo difieren de los bosques aleatorios normales
Selección de características a través de árboles regularizados
También hay un paquete CRAN RRF que se basa en randomForest que le permitirá implementarlos fácilmente en R. He tenido buena suerte con esta metodología.
Con respecto a su pregunta inicial, el único consejo que puedo dar es que si tiene mucha colinealidad, entonces necesita usar árboles más pequeños. Esto permite que el algoritmo determine la importancia con menos interferencia de los efectos de colinealidad.
fuente
Es posible que pueda usar
caretFuncs
algo como esto:Además, uno puede consultar el
valSelRF
paquete. No estoy seguro de cómo difiere de loregularized random forest
mencionado aquí.fuente