Tengo una lista de palabras, que pertenecen a diferentes categorías autodefinidas. Cada categoría tiene su propio patrón (por ejemplo, uno tiene una longitud fija con caracteres especiales, otro existe de caracteres que aparecen solo en esta categoría de "palabra", ...).
Por ejemplo:
"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
"123123" -> type3
...
Estoy buscando una técnica de aprendizaje automático para aprender estos patrones por sí sola, basada en datos de entrenamiento. Ya intenté definir algunas variables predictoras (por ejemplo, longitud de palabra, número de caracteres especiales, ...) por mi cuenta y luego usé una red neuronal para aprender y predecir la categoría. Pero eso no es lo que quiero. Quiero una técnica para aprender el patrón para cada categoría por sí mismo, incluso para aprender patrones en los que nunca pensé.
Entonces le doy al algoritmo datos de aprendizaje (que consisten en ejemplos de categorías de palabras) y quiero que aprenda patrones para cada categoría para predecir luego la categoría a partir de palabras similares o iguales.
¿Hay alguna forma de hacerlo?
Gracias por tu ayuda
Respuestas:
¿Podría volver a plantearse su problema como querer descubrir las expresiones regulares que coincidirán con las cadenas en cada categoría? Este es un problema de "generación de expresiones regulares", un subconjunto del problema de inducción gramatical (véase también el sitio web de Alexander Clark ).
El problema de la expresión regular es más fácil. Te puedo apuntar al código frak y RegexGenerator . El RegexGenerator ++ en línea tiene referencias a sus documentos académicos sobre el problema.
fuente
Puede probar redes neuronales recurrentes, donde su entrada es una secuencia de las letras de la palabra y su salida es una categoría. Esto se ajusta a sus requisitos de tal manera que no codifica manualmente ninguna función.
Sin embargo, para que este método realmente funcione, necesitará un conjunto de datos de entrenamiento bastante grande.
Puede consultar el etiquetado de secuencia supervisada con redes neuronales recurrentes de Alex Graves, capítulo 2 para obtener más detalles.
Este es un enlace a la preimpresión
fuente