¿Existe algún software que realice un análisis textual en los blogs? [cerrado]

8

Mi empresa está buscando crear una visualización PivotViewer de las publicaciones de blog de Wordpress 2 de un cliente durante los últimos 11 años. Para hacerlo, sin embargo, necesitamos editar las etiquetas un tanto al azar, incompletas y generalmente pobres para usarlas como categorías ordenables. Estoy buscando una herramienta que analice sus entradas de blog y realice el recuento de palabras, para darnos una idea de lo que estamos tratando.

Idealmente, tendría todas estas características:

  1. Lista negra de palabras (ignorar)
  2. Palabra derivada
  3. Sinónimo personalizado de fusión
  4. Contando todos los usos
  5. Contando el número de publicaciones en las que aparece una palabra.

Pensé que este tipo de análisis textual sería extremadamente común, pero no he podido encontrar ningún software que haga este tipo de cosas en blogs enteros. ¿Hay software disponible para hacer esto?

Brian Bauman
fuente
3
Interesante. En caso de duda, Python te respalda.
James T Snell
Sí ... realmente espero no tener que rodar el mío en este caso.
Brian Bauman
hay algo que hace esto ... Recuerdo que un amigo analizó wikipedia ... Lo consultaré mañana
Keltari

Respuestas:

3

El software que está buscando puede tener muchos títulos, como "Análisis de contenido" , "Nube de etiquetas" o "Metaetiquetas" y muchos más, como "análisis de texto" y "minería de texto".

Existen muchas herramientas de software para estos fines, tanto gratuitas como comerciales.

No tengo experiencia personal con tales herramientas, pero un buen lugar para comenzar es Text Analysis Tools que enumera docenas de tales herramientas, tanto gratuitas como comerciales.

Otra lista de este tipo es el análisis de texto, minería de texto y software de recuperación de información .

harrymc
fuente
Me abrí paso a través de la primera lista, pero ninguna de las opciones gratuitas incluye mucho más que el análisis lingüístico. Todavía no he revisado la segunda lista, puedo terminar rodando la mía.
Brian Bauman
2

Echa un vistazo a Rapidminer o Weka

Como es un blog de clientes, probablemente tenga acceso a la base de datos. Descargue todos los artículos como texto sin formato y use uno de los programas anteriores para tratar las preguntas de procesamiento del lenguaje natural (1, 2, 3 y 5).

La cantidad de usos es realmente difícil de automatizar, ya que tiene que ver con determinar automáticamente el significado de las palabras usando el contexto.

suweller
fuente
Contando todos los usos, no los usuarios. Gracias por las sugerencias, sin embargo.
Brian Bauman
Leí mal, mybad. Aún así, deberías pagar Rapidminer o Weka para el procesamiento del lenguaje natural. Es decir, a menos que el conjunto de datos sea enorme, porque ambos intentan encajarlo en la memoria
suweller
2

uno de los software de análisis de contenido más es WordStat diseñado por Provalis Research

WordStat es un módulo de análisis de texto para QDA Miner o SimStat. WordStat combina el método de análisis de contenido mediante el uso de un enfoque de diccionario y muchos algoritmos de exploración o varios métodos de minería de texto. WordStat puede aplicar diccionarios de categorización existentes a un nuevo corpus de texto. También se puede usar en el desarrollo y validación de nuevos diccionarios de categorización. Cuando se usa junto con la codificación manual, este módulo puede proporcionar asistencia para una aplicación más sistemática de las reglas de codificación, ayudar a descubrir diferencias en el uso de palabras entre subgrupos de individuos y ayudar en la revisión de la codificación existente usando tablas KWIC (Keyword In Context). WordStat está específicamente diseñado para estudiar información textual como respuestas a preguntas abiertas, entrevistas, títulos, artículos de revistas, discursos públicos, comunicaciones electrónicas, etc.

http://provalisresearch.com/products/content-analysis-software/

Laurence
fuente
0

Algunas de estas preguntas podrían responderse de forma rápida y sucia utilizando la Búsqueda de Google en su blog (lo más fácil si tiene su propio dominio).

Jürgen Strobel
fuente
0

Zemanta hace análisis y puede sugerir etiquetas y enlaces. También es un complemento de WordPress.

El único problema: tal como está actualmente, requiere la apertura manual, la selección y el almacenamiento de cada publicación.

Sin embargo, hay una gran cantidad de complementos de etiquetado automático para WordPress. Debes buscar en el buscador de complementos y probar algunos.

music2myear
fuente