Edición final con todos los recursos actualizados:
Para un proyecto, estoy aplicando algoritmos de aprendizaje automático para la clasificación.
Reto: datos etiquetados bastante limitados y muchos más datos sin etiquetar.
Metas:
- Aplicar clasificación semi-supervisada
- Aplicar un proceso de etiquetado semi-supervisado de alguna manera (conocido como aprendizaje activo)
He encontrado mucha información de trabajos de investigación, como la aplicación de EM, SVM transductivo o S3VM (SVM semi supervisado), o de alguna manera usando LDA, etc. Incluso hay pocos libros sobre este tema.
Pregunta: ¿Dónde están las implementaciones y las fuentes prácticas?
Actualización final (basada en las ayudas proporcionadas por mpiktas, bayer y Dikran Marsupial)
Aprendizaje semi-supervisado:
- TSVM: en SVMligth y SVMlin .
- EM ingenuo Bayes en Python
- EM en proyecto LinePipe
Aprendizaje activo:
- Dualist : una implementación de aprendizaje activo con código fuente en clasificación de texto
- Esta página web ofrece una maravillosa descripción del aprendizaje activo.
- Un taller de diseño experimental: aquí .
Aprendizaje profundo:
- Video introductorio aquí .
- Sitio general .
- Tutorial de aprendizaje de características y aprendizaje profundo sin supervisión de Stanford .
Respuestas:
Parece que el aprendizaje profundo podría ser muy interesante para usted. Este es un campo muy reciente de modelos conexionistas profundos que se entrenan de manera no supervisada y se ajustan posteriormente con supervisión. El ajuste fino requiere mucho menos muestras que el entrenamiento previo.
Para humedecerte la lengua, te recomiendo [Semantig Hashing Salakhutdinov, Hinton . Eche un vistazo a los códigos que esto encuentra para documentos distintos del corpus de Reuters: (¡sin supervisión!)
Si necesita algún código implementado, visite deeplearning.net . Sin embargo, no creo que haya soluciones listas para usar.
fuente
Isabelle Guyon (y sus colegas) organizaron un desafío sobre el aprendizaje activo hace un tiempo, los procedimientos se publican aquí (acceso abierto). Esto tiene la ventaja de ser bastante práctico y puede comparar directamente el desempeño de diferentes enfoques bajo un protocolo imparcial (en un sentido coloquial) (la selección aleatoria de patrones es sorprendentemente difícil de superar).
fuente
Aquí hay una buena lista de bibliotecas.
http://www.infoworld.com/article/2608742/predictive-analytics/5-ways-to-add-machine-learning-to-java--javascript--and-more.html
fuente