Aprendizaje semi-supervisado, aprendizaje activo y aprendizaje profundo para la clasificación.

19

Edición final con todos los recursos actualizados:

Para un proyecto, estoy aplicando algoritmos de aprendizaje automático para la clasificación.

Reto: datos etiquetados bastante limitados y muchos más datos sin etiquetar.

Metas:

  1. Aplicar clasificación semi-supervisada
  2. Aplicar un proceso de etiquetado semi-supervisado de alguna manera (conocido como aprendizaje activo)

He encontrado mucha información de trabajos de investigación, como la aplicación de EM, SVM transductivo o S3VM (SVM semi supervisado), o de alguna manera usando LDA, etc. Incluso hay pocos libros sobre este tema.

Pregunta: ¿Dónde están las implementaciones y las fuentes prácticas?


Actualización final (basada en las ayudas proporcionadas por mpiktas, bayer y Dikran Marsupial)

Aprendizaje semi-supervisado:

Aprendizaje activo:

  • Dualist : una implementación de aprendizaje activo con código fuente en clasificación de texto
  • Esta página web ofrece una maravillosa descripción del aprendizaje activo.
  • Un taller de diseño experimental: aquí .

Aprendizaje profundo:

Escama
fuente
Hay un paquete R RTextTools . Si no me equivoco, implementa varios de los métodos que menciona.
mpiktas
Hola mpiktas, gracias por tu amable ayuda. Es un juego de herramientas interesante. Sin embargo, parece que solo se trata de aprendizaje supervisado, ya que leí "TextTools es un paquete de aprendizaje automático gratuito y de código abierto para la clasificación automática de texto que facilita a los usuarios principiantes y avanzados comenzar a aprender supervisado. El paquete incluye nueve algoritmos para la clasificación de conjuntos (svm, slda, impulso, embolsado, bosques aleatorios, glmnet, árboles de decisión, redes neuronales, entropía máxima) "
Flake
Ok, aquí hay otro intento: Weka . Los autores han escrito un libro, y su tabla de contenido menciona el aprendizaje semi-supervisado. Espero sinceramente que el capítulo no termina con "... por desgracia ninguno de estos algoritmos se implementan en Weka" :)
mpiktas
¡Maldita sea, tengo la versión anterior del libro! ¡Muchas gracias por señalar esta fuente!
Flake

Respuestas:

8

Parece que el aprendizaje profundo podría ser muy interesante para usted. Este es un campo muy reciente de modelos conexionistas profundos que se entrenan de manera no supervisada y se ajustan posteriormente con supervisión. El ajuste fino requiere mucho menos muestras que el entrenamiento previo.

Para humedecerte la lengua, te recomiendo [Semantig Hashing Salakhutdinov, Hinton . Eche un vistazo a los códigos que esto encuentra para documentos distintos del corpus de Reuters: (¡sin supervisión!)

ingrese la descripción de la imagen aquí

Si necesita algún código implementado, visite deeplearning.net . Sin embargo, no creo que haya soluciones listas para usar.

bayerj
fuente
Esta es una información bastante interesante y nueva para mí. Por supuesto, las implementaciones listas para usar serían mejores, pero esto realmente me ayuda a saber algo más cercano a lo que quiero. Gracias.
Flake
5

Isabelle Guyon (y sus colegas) organizaron un desafío sobre el aprendizaje activo hace un tiempo, los procedimientos se publican aquí (acceso abierto). Esto tiene la ventaja de ser bastante práctico y puede comparar directamente el desempeño de diferentes enfoques bajo un protocolo imparcial (en un sentido coloquial) (la selección aleatoria de patrones es sorprendentemente difícil de superar).

Dikran Marsupial
fuente