¿Existe una implementación de bosque aleatorio R que funcione bien con datos muy escasos? Tengo miles o millones de variables de entrada booleanas, pero solo cientos más o menos serán VERDADERAS para cualquier ejemplo dado.
Soy relativamente nuevo en R y noté que hay un paquete 'Matrix' para tratar con datos escasos, pero el paquete estándar 'randomForest' no parece reconocer este tipo de datos. Si es importante, los datos de entrada se producirán fuera de R y se importarán.
¿Algún consejo? También puedo considerar el uso de Weka, Mahout u otros paquetes.
r
random-forest
sparse
Eryn
fuente
fuente
Respuestas:
No, no hay implementación de RF para datos dispersos en R. Parcialmente porque RF no encaja muy bien en este tipo de problema: el empaquetamiento y la selección subóptima de divisiones pueden desperdiciar la mayor parte del conocimiento del modelo en áreas de solo cero.
Pruebe algún método de kernel o piense mejor en convertir sus datos en una representación más exuberante con algunos descriptores (o use algún método de reducción de dimensionalidad).
fuente
En realidad, sí lo hay .
Es
xgboost
, que está hecho para aumentar el gradiente eXtreme. Este es actualmente el paquete de elección para ejecutar modelos con matrices dispersas en R para mucha gente, y como explica el enlace anterior, ¡puede usarlo para Random Forest ajustando los parámetros !fuente
El paquete R "Ranger" debería hacer.
https://cran.r-project.org/web/packages/ranger/ranger.pdf
En comparación con randomForest, este paquete es probablemente la implementación de RF más rápida que he visto. Trata las variables categóricas de forma nativa.
fuente
Hay un blog llamado Quick-R que debería ayudarte con los conceptos básicos de R.
R trabaja con paquetes. Cada paquete puede hacer algo diferente. Existen estos paquetes llamados "randomForests" que deberían ser exactamente lo que está pidiendo.
Tenga en cuenta que la escasez de datos generará problemas sin importar el método que aplique. Que yo sepa, es un problema muy abierto y la minería de datos en general es más un arte que una ciencia. Los bosques aleatorios funcionan muy bien en general, pero no siempre son el mejor método. Es posible que desee probar una red neuronal con muchas capas, eso podría ayudar.
fuente