Soy nuevo en el aprendizaje automático y busco algunos conjuntos de datos a través de los cuales puedo comparar y contrastar las diferencias entre los diferentes algoritmos de aprendizaje automático (árboles de decisión, refuerzo, SVM y redes neuronales)
¿Dónde puedo encontrar dichos conjuntos de datos? ¿Qué debería estar buscando al considerar un conjunto de datos?
Sería genial si pudiera señalar algunos conjuntos de datos buenos y también decirme qué los convierte en un buen conjunto de datos.
machine-learning
dataset
Conejo conejo
fuente
fuente
Respuestas:
Los conjuntos de datos en los siguientes sitios están disponibles de forma gratuita. Estos conjuntos de datos se han utilizado para enseñar algoritmos de ML a los estudiantes porque para la mayoría hay descripciones con los conjuntos de datos. Además, se ha mencionado qué tipo de algoritmos son aplicables.
fuente
Kaggle tiene una gran cantidad de conjuntos de datos que puedes usar para practicar.
(¡Me sorprende que no se haya mencionado hasta ahora!)
Tiene dos cosas (entre muchas otras) que lo convierten en un recurso muy valioso:
fuente
Primero, recomendaría comenzar con los datos de muestra que se proporcionan con el software. La mayoría de las distribuciones de software incluyen datos de ejemplo que puede utilizar para familiarizarse con el algoritmo sin tener que lidiar con los tipos de datos y luchar con los datos en el formato correcto para el algoritmo. Incluso si está creando un algoritmo desde cero, puede comenzar con la muestra de una implementación similar y comparar el rendimiento.
En segundo lugar, recomendaría experimentar con conjuntos de datos sintéticos para tener una idea de cómo funciona el algoritmo cuando se sabe cómo se generaron los datos y la relación señal / ruido.
En R, puede enumerar todos los conjuntos de datos en los paquetes instalados actualmente con este comando:
El paquete R mlbench tiene conjuntos de datos reales y puede generar conjuntos de datos sintéticos que son útiles para estudiar el rendimiento del algoritmo.
El scikit-learn de Python tiene datos de muestra y también genera conjuntos de datos sintéticos / de juguete.
SAS tiene un conjunto de datos de capacitación disponible para descargar y los datos de muestra de SPSS se instalan con el software en C: \ Archivos de programa \ IBM \ SPSS \ Statistics \ 22 \ Samples
Por último, miraría los datos en la naturaleza. Compararía el rendimiento de diferentes algoritmos y parámetros de ajuste en conjuntos de datos reales. Esto generalmente requiere mucho más trabajo porque rara vez encontrará conjuntos de datos con tipos y estructuras de datos que pueda colocar directamente en sus algoritmos.
Para datos en estado salvaje, recomendaría:
Archivo de conjunto de datos de reddit
Lista de KDnugget
fuente
Los datos de Iris establecen manos abajo. También está en la base R.
fuente
En mi opinión, puede comenzar con pequeños conjuntos de datos que no tienen demasiadas características.
Un ejemplo sería el conjunto de datos Iris (para clasificación). Tiene 3 clases, 50 muestras para cada clase con un total de 150 puntos de datos. Un excelente recurso para ayudarlo a explorar este conjunto de datos es esta serie de videos de Data School.
Otro conjunto de datos para pagar es el conjunto de datos de calidad del vino del repositorio UCI -ML. Tiene 4898 puntos de datos con 12 atributos.
fuente