Últimamente he estado trabajando con grandes conjuntos de datos y encontré muchos documentos sobre métodos de transmisión. Para nombrar unos pocos:
- Follow-the-Regularized-Leader and Mirror Descent: Equivalence Theorems and L1 Regularization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- Aprendizaje continuo: SVM de un solo paso ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos: Primal Estimado sub-GrAdient SOlver para SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- o aquí: ¿Puede SVM hacer streaming de aprendizaje un ejemplo a la vez?
- Streaming Random Forests ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
Sin embargo, no he podido encontrar ninguna documentación sobre cómo se comparan entre sí. Cada artículo que leo parece ejecutar experimentos en diferentes conjuntos de datos.
Sé sobre sofia-ml, votepal wabbit, pero parecen implementar muy pocos métodos, en comparación con la gran cantidad de métodos existentes.
¿Los algoritmos menos comunes no son lo suficientemente eficaces? ¿Hay algún documento tratando de revisar tantos métodos como sea posible?
machine-learning
references
large-data
online
RUser4512
fuente
fuente
Respuestas:
Hasta donde yo sé, no está disponible una encuesta rigurosa de múltiples algoritmos similar al documento de Delgado que vinculó, pero se han realizado esfuerzos para recopilar resultados para familias de algoritmos.
Aquí hay algunas fuentes que encuentro útiles (descargo de responsabilidad: publico en el área, por lo que es probable que esté sesgado en mi selección):
Algunos paquetes de software:
Puedo agregar más información y fuentes si es necesario. Como otros han dicho, el campo podría usar una encuesta integral.
fuente