El Vowpal Wabbit (VW) aparentemente admite la funcionalidad de etiquetado de secuencias a través de SEARN . El problema es que no puedo encontrar en ninguna parte una lista detallada de parámetros con explicaciones y con algunos ejemplos. Lo mejor que pude encontrar es la entrada de blog de Zinkov con un ejemplo muy breve. La página principal de wiki apenas menciona SEARN.
En el código fuente extraído encontré una carpeta de demostración con algunos datos de muestra NER. Desafortunadamente, el script que ejecuta todas las pruebas no muestra cómo ejecutar estos datos. Al menos fue lo suficientemente informativo para ver cuál es el formato esperado: casi lo mismo que el formato de datos estándar de VW, excepto que las entradas están separadas por líneas en blanco (esto es importante).
Mi comprensión actual es ejecutar el siguiente comando:
cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \
--searn_passes_per_policy 2 -b 30 -f twpos.vw
dónde
--searn 25
- el número total de etiquetas NER (?)
--searn_task sequence
- tarea de etiquetado de secuencia (?)
--searn_passes_per_policy 2
- no está claro lo que hace
Otros parámetros son estándar para VW y no necesitan explicación adicional. ¿Quizás hay más parámetros específicos para SEARN? ¿Cuál es su importancia e impacto? ¿Cómo sintonizarlos? ¿Alguna regla general?
Cualquier sugerencia a los ejemplos será apreciada.
fuente