Me gustaría probar un nuevo algoritmo para el filtrado colaborativo . Un caso de uso típico es recomendar películas basadas en las preferencias de los usuarios similares al usuario específico.
¿Cuáles son algunos conjuntos de datos de referencia comunes que los investigadores suelen utilizar para probar sus algoritmos? Sé que dentro de Computer Vision las personas a menudo usan MNIST o CIFAR, pero no he encontrado conjuntos de datos similares para el filtrado colaborativo.
Respuestas:
La respuesta obvia sería el conjunto de datos de premios de Netflix, hay mucha investigación al respecto y la mayoría de los algoritmos de FQ tienen puntajes conocidos.
Hay otros conjuntos de datos disponibles que generalmente se usan como puntos de referencia:
Conjunto de datos de lentes de película : un conjunto de datos de 20 millones de calificaciones utilizado para la evaluación comparativa de algoritmos CF
Jester Dataset : un conjunto de datos de recomendación de broma con más de 6 millones de calificaciones;
Puedes encontrar muchos más conjuntos de datos en este enlace
fuente
Tengo un repositorio que podría ayudarte.
https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/
fuente