Tengo un conjunto de datos con 5.818.446 líneas y 51 columnas, de las cuales 50 son predictores. Mi respuesta es cuantitativa, así que estoy interesado en un modelo de regresión. Estoy tratando de ajustar un bosque aleatorio a mis datos usando el paquete caret. Sin embargo, no tengo suficiente RAM para hacerlo.
He estado buscando soluciones a mi problema. Además de tener una computadora más poderosa, parece que puedo usar el embolsado para resolver mi problema. Por lo tanto, mi idea es la siguiente:
Crear particiones de entrenamiento y prueba desde mi conjunto de datos original
Muestra con reemplazo de una pequeña parte de mi conjunto de datos del tren en R (digamos 1%, es decir, 58,185 líneas)
Ajustar un bosque aleatorio a esta pequeña parte de datos
Guardar el resultado del modelo
Repita los pasos 2-4 1,000 veces
Combina estos 1,000 modelos obtenidos de los pasos 2-5
Sin embargo, el bosque aleatorio en sí mismo usa el embolsado para ajustar el modelo a los datos y, por lo tanto, no estoy seguro de si mi enfoque es correcto. Por lo tanto, tengo algunas preguntas para ti:
i) ¿Es correcto mi enfoque? Quiero decir, dado que no tengo suficiente RAM en mi sistema, ¿es correcto ajustar muchos modelos de bosque aleatorios diferentes a diferentes fragmentos de datos y combinarlos después?
ii) Suponiendo que mi enfoque es correcto, ¿el 1% de los datos es una buena regla general para el tamaño de mi muestra? Incluso con el 1% de los datos, todavía tengo .
iii) Suponiendo que mi enfoque es correcto, ¿hay varias réplicas para los modelos que debería usar? Pensé en 1,000 por razones.
fuente
l1
regularización, que generalmente reduce el peso de los componentes insignificantes a casi cero, para que pueda ver mediante inspección qué árboles debe mantener.Respuestas:
Esto no aborda sus preguntas específicas, sino la motivación detrás de ellas. El
bigRF
paquete puede resolver su problema:También:
fuente