Documentos de minería de datos / ejemplos

8

Estoy buscando algunos documentos / sitios web de tamaño medio a largo sobre la minería de datos, específicamente donde se explora en profundidad un conjunto de datos desde la preparación de datos hasta el modelo final. Estoy particularmente interesado en las discusiones sobre la aplicación de algos de aprendizaje automático y también en el modelado de datos básicos. Un ejemplo sería el libro de Luis Torgo 'Data Mining with R'. Cualquier sugerencia sera apreciada.

Chillido búho
fuente
1
¿Está interesado en todos los métodos de minería de datos, o solo un método en particular?
Michelle
Tomaré lo que pueda conseguir.
screechOwl
Estoy buscando cosas más específicas sobre cómo atravesar un conjunto de datos específico. Algunos de los relatos de la Copa KDD por equipos ganadores están en la línea de lo que estoy buscando. Básicamente narrativas de cómo lidiar con problemas específicos de un conjunto de datos dado. La analogía sería con un estudio de caso en una escuela de negocios en el que una situación en una empresa se discute en gran detalle.
screechOwl

Respuestas:

4

Visite el blog de Kaggle.com , donde los ganadores discuten sus enfoques para resolver una competencia de minería de datos. Luego puede volver al sitio web de kaggle.com para obtener la descripción y los datos y probarlo usted mismo.

Galit Shmueli
fuente
2

Te recomiendo artículos de la revista gratuita Journal of Statistical Software.

Puede encontrar diferentes aplicaciones de minería de datos / aprendizaje automático junto con análisis de ejemplos de datos reales. La mayoría de los artículos son sobre paquetes R, por lo que también puede realizar simultáneamente sus análisis en R. Los artículos en la revista también incluyen código R y los paquetes en R incluyen datos.

Todos los datos se analizan en profundidad allí, por lo que es una fuente muy valiosa para mí.

Miroslav Sabo
fuente
1

El paquete caret R tiene un conjunto de cuatro viñetas que explican la aplicación de diversas tareas de preparación de datos, algoritmos de aprendizaje supervisado, selección de características y visualizaciones de datos a partir de algunos conjuntos de datos de ejemplo sin procesar.

Aunque el enfoque se centra en cómo hacer estas cosas utilizando la funcionalidad proporcionada por el propio caret, sigue siendo generalmente aplicable y una lectura bastante buena para proyectos del mundo real.

Aquí hay enlaces directos a las cuatro viñetas en PDF:

scttl
fuente