Mi empresa está buscando crear una visualización PivotViewer de las publicaciones de blog de Wordpress 2 de un cliente durante los últimos 11 años. Para hacerlo, sin embargo, necesitamos editar las etiquetas un tanto al azar, incompletas y generalmente pobres para usarlas como categorías ordenables. Estoy buscando una herramienta que analice sus entradas de blog y realice el recuento de palabras, para darnos una idea de lo que estamos tratando.
Idealmente, tendría todas estas características:
- Lista negra de palabras (ignorar)
- Palabra derivada
- Sinónimo personalizado de fusión
- Contando todos los usos
- Contando el número de publicaciones en las que aparece una palabra.
Pensé que este tipo de análisis textual sería extremadamente común, pero no he podido encontrar ningún software que haga este tipo de cosas en blogs enteros. ¿Hay software disponible para hacer esto?
software-rec
statistics
blogging
word-count
Brian Bauman
fuente
fuente
Respuestas:
El software que está buscando puede tener muchos títulos, como "Análisis de contenido" , "Nube de etiquetas" o "Metaetiquetas" y muchos más, como "análisis de texto" y "minería de texto".
Existen muchas herramientas de software para estos fines, tanto gratuitas como comerciales.
No tengo experiencia personal con tales herramientas, pero un buen lugar para comenzar es Text Analysis Tools que enumera docenas de tales herramientas, tanto gratuitas como comerciales.
Otra lista de este tipo es el análisis de texto, minería de texto y software de recuperación de información .
fuente
Echa un vistazo a Rapidminer o Weka
Como es un blog de clientes, probablemente tenga acceso a la base de datos. Descargue todos los artículos como texto sin formato y use uno de los programas anteriores para tratar las preguntas de procesamiento del lenguaje natural (1, 2, 3 y 5).
La cantidad de usos es realmente difícil de automatizar, ya que tiene que ver con determinar automáticamente el significado de las palabras usando el contexto.
fuente
uno de los software de análisis de contenido más es WordStat diseñado por Provalis Research
WordStat es un módulo de análisis de texto para QDA Miner o SimStat. WordStat combina el método de análisis de contenido mediante el uso de un enfoque de diccionario y muchos algoritmos de exploración o varios métodos de minería de texto. WordStat puede aplicar diccionarios de categorización existentes a un nuevo corpus de texto. También se puede usar en el desarrollo y validación de nuevos diccionarios de categorización. Cuando se usa junto con la codificación manual, este módulo puede proporcionar asistencia para una aplicación más sistemática de las reglas de codificación, ayudar a descubrir diferencias en el uso de palabras entre subgrupos de individuos y ayudar en la revisión de la codificación existente usando tablas KWIC (Keyword In Context). WordStat está específicamente diseñado para estudiar información textual como respuestas a preguntas abiertas, entrevistas, títulos, artículos de revistas, discursos públicos, comunicaciones electrónicas, etc.
http://provalisresearch.com/products/content-analysis-software/
fuente
Es posible que desee probar Wolfram's Mathematica . Tendrás que hacer algo de programación, pero todas las herramientas que necesitas están ahí:
fuente
Algunas de estas preguntas podrían responderse de forma rápida y sucia utilizando la Búsqueda de Google en su blog (lo más fácil si tiene su propio dominio).
fuente
Zemanta hace análisis y puede sugerir etiquetas y enlaces. También es un complemento de WordPress.
El único problema: tal como está actualmente, requiere la apertura manual, la selección y el almacenamiento de cada publicación.
Sin embargo, hay una gran cantidad de complementos de etiquetado automático para WordPress. Debes buscar en el buscador de complementos y probar algunos.
fuente