Aprendizaje de última generación en streaming

25

Últimamente he estado trabajando con grandes conjuntos de datos y encontré muchos documentos sobre métodos de transmisión. Para nombrar unos pocos:

Sin embargo, no he podido encontrar ninguna documentación sobre cómo se comparan entre sí. Cada artículo que leo parece ejecutar experimentos en diferentes conjuntos de datos.

Sé sobre sofia-ml, votepal wabbit, pero parecen implementar muy pocos métodos, en comparación con la gran cantidad de métodos existentes.

¿Los algoritmos menos comunes no son lo suficientemente eficaces? ¿Hay algún documento tratando de revisar tantos métodos como sea posible?

RUser4512
fuente
77
Si no lo hay, debe escribirlo usted mismo :)
Chris C
1
entiendes que la gente en la academia tiene que escribir artículos / elaborar nuevos algoritmos, y buscarán los conjuntos de datos en los que su algoritmo funciona mejor. Le recomendaría que se asegure de comprender cómo funciona una biblioteca como votpal-wabbit (es decir, todos los parámetros, etc.).
seanv507
1
Eso es realmente lo contrario! Comprendí que las personas eligieron el mejor conjunto de datos y, en general, son relativamente silenciosas sobre cómo validaron de forma cruzada los algoritmos (tanto los suyos como los de la competencia). Estoy buscando una versión de transmisión de jmlr.org/papers/volume15/delgado14a/delgado14a.pdf
RUser4512
1
Realmente me gusta el papel JMLR que vinculó. Yo mismo no conozco una comparación similar para los algoritmos de transmisión. Probablemente porque la transmisión es más específica y también porque aunque ya es difícil comparar clasificadores para conjuntos de datos estáticos, es aún más complicado hacer una comparación justa para la transmisión de datos.
stats0007
1
Aunque estos no responden específicamente a su pregunta, dos recursos relacionados son: Evaluación de algoritmos que aprenden de los flujos de datos por Gama et al., Que analiza las técnicas de evaluación, y MOA (Análisis masivo en línea) , un marco de código abierto para la minería de flujos de datos que incorpora La capacidad de evaluar el rendimiento.
user77876

Respuestas:

1

Hasta donde yo sé, no está disponible una encuesta rigurosa de múltiples algoritmos similar al documento de Delgado que vinculó, pero se han realizado esfuerzos para recopilar resultados para familias de algoritmos.

Aquí hay algunas fuentes que encuentro útiles (descargo de responsabilidad: publico en el área, por lo que es probable que esté sesgado en mi selección):

Algunos paquetes de software:

Puedo agregar más información y fuentes si es necesario. Como otros han dicho, el campo podría usar una encuesta integral.

Bar
fuente