Una encuesta de herramientas de software de minería de datos

15

Aunque me formé como ingeniero, descubro que me estoy interesando más en la minería de datos. En este momento estoy tratando de investigar más el campo. En particular, me gustaría entender las diferentes categorías de herramientas de software que existen y qué herramientas son notables en cada categoría y por qué. (Tenga en cuenta que no dije las "mejores" herramientas, solo las notables para que no comencemos una guerra de llamas). Especialmente tome nota de las herramientas que son de código abierto y están disponibles gratuitamente, aunque no tome esto como que significa Solo estoy interesado en código abierto y gratis.

John Berryman
fuente
1
Aconsejo que esto sea un wiki comunitario.
Tal Galili
suena como una pregunta de tarea
Neil McGuigan
@Tal Ciertamente, ahora convertido.
@el jefe - Es una pregunta muy amplia y general ... pero me temo que no es una tarea.
John Berryman

Respuestas:

7

Esta es probablemente la lista más completa que encontrarás: mloss.org

Pedro Oliveira
fuente
Sin embargo, se centra en el aprendizaje automático, que puede verse como un campo relacionado de minería de datos, al igual que la IA. Aunque comúnmente se usa como sinónimo, ya que la "predicción" es uno de los desafíos clave en la minería de datos. Pero hay más que "aprender" a la minería de datos.
HA SALIDO - Anony-Mousse
7

Mira esto

  • Weka (Java, fuerte en clasificación)
  • Naranja (secuencias de comandos de Python, principalmente clasificación)
  • GNU R (lenguaje R, algo orientado a la tabla de vectores, vea la vista de tareas de Aprendizaje automático y la interfaz de usuario de Rattle )
  • ELKI (Java, fuerte en agrupamiento y detección de valores atípicos, soporte de estructura de índice para aceleraciones, lista de algoritmos )
  • Mahout (Java, pertenece a Hadoop, si tiene un clúster y grandes conjuntos de datos)

y el Depósito de aprendizaje automático UCI para conjuntos de datos.

chl
fuente
1
puedes agregar Red-R a la lista (una especie de clon de Orange en R): red-r.org
Amro
He descargado R y estoy jugando con él ahora.
John Berryman el
@Amro ¡Gracias! Sin embargo, no está disponible en la plataforma Mac, a menos que me equivoque.
chl
No soy un usuario de Mac, pero creo que la compilación de Linux podría funcionar para usted (necesita instalar manualmente todas las dependencias de Python): red-r.org/forum/topic.php?id=22#post-76
Amro
@Amro lo intentaré; en el pasado he estado probando RAnalyticFlow ( j.mp/bYF8xs ) pero no me convencí: básicamente soy un usuario de CLI :-)
chl
3

Rattle es una GUI de minería de datos que proporciona una interfaz para una amplia gama de paquetes R.

Jeromy Anglim
fuente
3

Echa un vistazo a KNIME .

Muy facil de aprender. Con mucho margen para seguir avanzando. Se integra muy bien con Weka y R.

radek
fuente
2

Existe ELKI , un proyecto universitario de código abierto algo comparable a WEKA, pero mucho más fuerte cuando se trata de agrupamiento y detección de valores atípicos. WEKA en realidad no es realmente minería de datos, sino software de aprendizaje automático.

HA SALIDO - Anony-Mousse
fuente
1

Existe este Red-R que tiene una buena interfaz gráfica de usuario y una interfaz de programación visual. Hace uso de R para procesar los diversos análisis de datos.

Stat-R
fuente
1

Rexer Anlaytics realiza una encuesta de kit de herramientas cada año. KDnuggets tiene descripciones de software por industria e intención.

Dimitriy V. Masterov
fuente
0

La minería de datos de SQL Server (SSDM) no se ha actualizado en mucho tiempo, pero sigue siendo bastante competitiva si extrae grandes bases de datos relacionales y cubos. Estoy avanzando lenta pero sistemáticamente a través de las pruebas de tantas herramientas de minería como puedo y la interfaz de Windows de SQL Server es la más productiva y estable que he encontrado hasta la fecha (particularmente cuando se trata de bases de datos empresariales, algunas de las cuales sorprendentemente interfaces descuidadas) a pesar de su antigüedad. Prefiero una interfaz moderna de Windows Presentation Foundation (WPF), pero esta es la mejor opción.

Escribí una serie completa de tutoriales amateurs detallados sobre él titulados A Rickety Stairway to SQL Server Data Mining , cuando intentaba adquirir algunas habilidades básicas de minería. A pesar de mi inexperiencia, siguen siendo útiles para ayudar a identificar algunas de las "trampas" de antemano.

SQLServerSteve
fuente