Estoy buscando algunos documentos / sitios web de tamaño medio a largo sobre la minería de datos, específicamente donde se explora en profundidad un conjunto de datos desde la preparación de datos hasta el modelo final. Estoy particularmente interesado en las discusiones sobre la aplicación de algos de aprendizaje automático y también en el modelado de datos básicos. Un ejemplo sería el libro de Luis Torgo 'Data Mining with R'. Cualquier sugerencia sera apreciada.
r
data-mining
Chillido búho
fuente
fuente
Respuestas:
Visite el blog de Kaggle.com , donde los ganadores discuten sus enfoques para resolver una competencia de minería de datos. Luego puede volver al sitio web de kaggle.com para obtener la descripción y los datos y probarlo usted mismo.
fuente
Aquí hay un buen lugar para comenzar:
Los 10 algoritmos principales en minería de datos
No hay mucho en términos de preparación de datos allí, pero sí mucho en aplicaciones. Y muchos buenos enlaces a documentos relevantes para leer.
fuente
Te recomiendo artículos de la revista gratuita Journal of Statistical Software.
Puede encontrar diferentes aplicaciones de minería de datos / aprendizaje automático junto con análisis de ejemplos de datos reales. La mayoría de los artículos son sobre paquetes R, por lo que también puede realizar simultáneamente sus análisis en R. Los artículos en la revista también incluyen código R y los paquetes en R incluyen datos.
Todos los datos se analizan en profundidad allí, por lo que es una fuente muy valiosa para mí.
fuente
El paquete caret R tiene un conjunto de cuatro viñetas que explican la aplicación de diversas tareas de preparación de datos, algoritmos de aprendizaje supervisado, selección de características y visualizaciones de datos a partir de algunos conjuntos de datos de ejemplo sin procesar.
Aunque el enfoque se centra en cómo hacer estas cosas utilizando la funcionalidad proporcionada por el propio caret, sigue siendo generalmente aplicable y una lectura bastante buena para proyectos del mundo real.
Aquí hay enlaces directos a las cuatro viñetas en PDF:
fuente
Aquí hay algunos que he encontrado útiles:
KDD Cup 2008 y el Taller sobre minería de datos médicos
fuente