No estoy seguro de si esta pregunta es totalmente apropiada aquí, de lo contrario, elimínela.
Soy un estudiante graduado en economía. Para un proyecto que investiga problemas en seguros sociales, tengo acceso a una gran cantidad de informes de casos administrativos (> 200k) que se ocupan de las evaluaciones de elegibilidad. Estos informes posiblemente pueden vincularse a información administrativa individual. Quiero extraer información de estos informes que pueda usarse en análisis cuantitativo, e idealmente más que simples búsquedas de palabras clave / expresiones regulares usando grep
/ awk
etc.
¿Qué tan útil es el procesamiento del lenguaje natural para esto? ¿Cuáles son otros enfoques útiles de minería de texto? Por lo que entiendo, este es un gran campo, y lo más probable es que algunos de los informes tengan que ser transformados para ser utilizados como un corpus. ¿Vale la pena invertir algún tiempo para familiarizarse con la literatura y los métodos? ¿Puede ser útil y se ha hecho algo similar antes? ¿Vale la pena en términos de recompensas, es decir, puedo extraer información potencialmente útil utilizando PNL para un estudio empírico en economía?
Posiblemente haya fondos para contratar a alguien para leer y preparar algunos de los informes. Este es un proyecto más grande y existe la posibilidad de solicitar más fondos. Puedo proporcionar más detalles sobre el tema si es estrictamente necesario. Una posible complicación es que el idioma es alemán, no inglés.
Con respecto a las calificaciones, en su mayoría estoy capacitado en econometría y tengo algunos conocimientos sobre estadísticas computacionales a nivel de Hastie et al. libro. Conozco Python, R, Stata, y probablemente podría familiarizarme con Matlab rápidamente. Dadas las bibliotecas, supongo que Python es la herramienta de elección para esto. No hay capacitación en absoluto en métodos cualitativos si esto es relevante, pero conozco a algunas personas con las que puedo comunicarme.
Me complace cualquier comentario sobre esto, es decir, si esto es potencialmente útil, si es así, dónde comenzar a leer y en qué herramientas centrarse en particular.
Respuestas:
Creo que le beneficiaría definir qué información desea extraer de los datos. Las búsquedas simples de palabras clave / expresiones regulares en realidad pueden ser muy fructíferas para usted. Trabajo en seguros y usamos este tipo de minería de texto con bastante frecuencia: es posiblemente ingenuo y definitivamente imperfecto, pero es un comienzo relativamente bueno (o una aproximación cercana) a lo que generalmente nos interesa.
Pero para mi punto principal, para determinar si su método elegido es apropiado, recomendaría definir exactamente qué desea extraer de los datos; Esa es la parte más difícil, en mi opinión.
Puede ser interesante encontrar las palabras únicas dentro de todas las cadenas y hacer una frecuencia de las 1000 palabras más o menos. Esto puede ser computacionalmente costoso (dependiendo de su RAM / procesador) pero puede ser interesante de ver. Si estuviera explorando los datos sin mucho conocimiento al respecto, aquí es donde comenzaría (otros pueden ofrecer diferentes puntos de vista).
Espero que ayude.
fuente