Actualmente estoy tratando de implementar algunos algoritmos de Machine Learning por mi cuenta. Muchos de ellos tienen la desagradable propiedad de ser difíciles de depurar, algunos errores no hacen que el programa se bloquee, sino que funcionan de la manera no deseada y los algoritmos solo dan resultados más débiles.
Me gustaría tener alguna forma de aumentar mi confianza en la implementación, por ejemplo, si tuviera algunos conjuntos de datos pequeños, con información adicional "Algoritmos X funcionó para las iteraciones Y y obtuve resultados Z en este conjunto de datos", eso sería realmente útil. ¿Alguien ha oído hablar de tales conjuntos de datos?
Respuestas:
Desde el repositorio de UC Irvine Machine Learning :
Además, el siguiente conjunto de datos MIAS ha sido ampliamente utilizado y estudiado:
fuente
El repositorio UCI mencionado por Bashar es probablemente el más grande, sin embargo, quería agregar un par de colecciones más pequeñas que encontré:
fuente