Actualmente tengo que analizar aproximadamente 20 millones de registros y construir modelos de predicción. Hasta ahora he probado Statistica, SPSS, RapidMiner y R. Entre estos, Statistica parece ser el más adecuado para tratar la minería de datos y la interfaz de usuario de RapidMiner también es muy útil, pero parece que Statistica, RapidMiner y SPSS son adecuados solo para conjuntos de datos más pequeños. .
¿Alguien podría recomendar una buena herramienta para grandes conjuntos de datos?
¡Gracias!
Respuestas:
Segundo comentario de @suncoolsu: la dimensionalidad de su conjunto de datos no es el único criterio que debería orientarlo hacia un software específico. Por ejemplo, si solo está planeando agrupar sin supervisión o usar PCA, existen varias herramientas dedicadas que hacen frente a grandes conjuntos de datos, como se encuentra comúnmente en los estudios genómicos.
Ahora, R (64 bits) maneja grandes cantidades de datos bastante bien, y usted todavía tiene la opción de almacenamiento en disco utilización en lugar de acceso a la RAM, pero ver CRAN vista de tareas de alto rendimiento y computación paralela con R . GLM estándar puede acomodar fácilmente 20,000 obs. (pero vea también speedglm ) dentro de un tiempo razonable, como se muestra a continuación:
Para dar una ilustración más concreta, utilicé R para procesar y analizar datos genéticos grandes (800 individuos x 800k SNPs , donde el modelo estadístico principal era un GLM estratificado con varias covariables (2 min); eso fue posible gracias a R eficiente y Códigos C disponibles en el paquete snpMatrix (en comparación, el mismo tipo de modelo tomó alrededor de 8 minutos usando un software dedicado C ++ ( plink ). También trabajé en un estudio clínico (12k pacientes x 50 variables de interés) y R se ajusta a mis necesidades Finalmente, hasta donde yo sé, el paquete lme4 es el único software que permite ajustar el modelo de efectos mixtos con conjuntos de datos grandes y no balanceados (como es el caso de la evaluación educativa a gran escala).
Stata / SE es otro software que puede manejar grandes conjuntos de datos . SAS y SPSS son software basado en archivos, por lo que manejarán grandes volúmenes de datos. Una revisión comparativa del software para minería de datos está disponible en Herramientas de minería de datos: cuál es el mejor para CRM . Para la visualización, también hay muchas opciones; quizás un buen comienzo es Gráficos de grandes conjuntos de datos: visualizar un millón ( revisado en el JSS por P Murrell), y todos los hilos relacionados en este sitio.
fuente
La mayoría de los algoritmos en Apache Mahout escalan mucho más allá de los registros de 20M, incluso con datos de alta dimensión. Si solo necesita construir un modelo de predicción, existen herramientas específicas como Vowpal Wabbit (http://hunch.net/~vw/) que pueden escalar fácilmente a miles de millones de registros en una sola máquina.
fuente
Existe el paquete RHIPE (integración R-Hadoop). Puede hacer que sea muy fácil (con excepciones) analizar grandes cantidades de datos en R.
fuente
Es difícil dar una buena respuesta sin saber qué tipo de modelos tiene en mente.
Para la regresión lineal, he utilizado con éxito el paquete biglm en R.
fuente
Como está creando modelos predictivos a partir de grandes conjuntos de datos, podría beneficiarse de BigQuery de Google (una versión alojada de la tecnología del documento de investigación de Google sobre análisis masivo de conjuntos de datos con Dremel). Puede exportar los resultados de la consulta como CSV para ingestión en un clasificador predictivo, por ejemplo.
BigQuery tiene una WebUI que le permite ejecutar consultas y exportar resultados. La versión beta (v1) de BigQuery presentaba un cliente R, y la versión de producción (v2) eventualmente tendrá un cliente R también.
fuente
Entrenamos observaciones de 3,5 millones y 44 características usando R de 64 bits en una instancia EC2 con 32 GB de RAM y 4 núcleos. Utilizamos bosques aleatorios y funcionó bien. Tenga en cuenta que tuvimos que preprocesar / manipular los datos antes del entrenamiento.
fuente
SAS Enterprise Miner versión 6.2 no tendría problemas para manejar 20 millones de observaciones y una variedad de modelos que se pueden adaptar a su situación. Sin embargo, el problema con SAS suele ser el costo. Aquí hay un resumen de lo que SAS EM puede hacer: SAS EM 6.2: Novedades
fuente
¿Puedes mirar ScaVis ( http://jwork.org/scavis )? No miré 20M, pero puede intentar comprobarlo.
fuente
¡RHIPE es una gran solución, y probablemente elegiría esta si tuviera este problema! pero has considerado NCSS? Hasta donde yo sé, la última versión 10 puede construir estos modelos. El ver completo. es muy costoso, pero en varios servicios de escritorio remoto puede ejecutar la aplicación solo por una pequeña tarifa, pero no sé ... más bien verifique eso
fuente