Recientemente, ha crecido una gran cantidad de literatura que discute cómo extraer información del texto escrito. Por lo tanto, solo describiré cuatro hitos / modelos populares y sus ventajas / desventajas y resaltaré (algunas de) las principales diferencias (o al menos lo que creo que son las principales / más importantes diferencias).
Usted menciona el enfoque "más fácil", que sería agrupar los documentos comparándolos con una consulta de términos predefinida (como en PMI). Sin embargo, estos métodos de correspondencia léxica pueden ser inexactos debido a la polisemia (significados múltiples) y la sinonimia (palabras múltiples que tienen significados similares) de términos únicos.
Como remedio, la indexación semántica latente ( LSI ) intenta superar esto mapeando términos y documentos en un espacio semántico latente a través de una descomposición de valores singulares. Los resultados de LSI son indicadores de significado más sólidos que los términos individuales. Sin embargo, un inconveniente de LSI es que carece de una base probabilística sólida.
Esto se resolvió en parte mediante la invención del LSI probabilístico ( pLSI ). En los modelos pLSI, cada palabra en un documento se extrae de un modelo de mezcla especificado a través de variables aleatorias multinomiales (que también permite coincidencias de orden superior como se menciona en @sviatoslav hong). Este fue un importante paso adelante en el modelado de texto probabilístico, pero fue incompleto en el sentido de que no ofrece una estructura probabilística a nivel de documentos.
La asignación de Dirichlet latente ( LDA ) alivia esto y fue el primer modelo totalmente probabilístico para la agrupación de texto. Blei y col. (2003) muestran que pLSI es un modelo LDA estimado máximo a posteriori bajo un Dirichlet uniforme previo.
Tenga en cuenta que los modelos mencionados anteriormente (LSI, pLSI, LDA) tienen en común que se basan en el supuesto de "bolsa de palabras", es decir, que dentro de un documento, las palabras son intercambiables, es decir, el orden de las palabras en un documento puede ser descuidado Esta suposición de intercambiabilidad ofrece una justificación adicional para LDA sobre los otros enfoques: suponiendo que no solo las palabras dentro de los documentos son intercambiables, sino también los documentos, es decir, el orden de los documentos dentro de un corpus puede descuidarse, el teorema de De Finettiestablece que cualquier conjunto de variables aleatorias intercambiables tiene una representación como una distribución de mezcla. Por lo tanto, si se supone la capacidad de intercambio de documentos y palabras dentro de los documentos, se necesita un modelo mixto para ambos. Exactamente esto es lo que LDA generalmente logra, pero PMI o LSI no (e incluso pLSI no es tan hermoso como LDA).
LDA puede capturar un orden superior de co-ocurrencias de términos (debido a la suposición de que cada tema es una distribución multinomial sobre términos), lo que no es posible simplemente calculando PMI entre términos.
fuente
Puede que tenga 3 años de retraso, pero quiero seguir su pregunta sobre el ejemplo de "alto orden de coincidencias".
Básicamente, si el término t1 ocurre conjuntamente con el término t2 que coincide con el término t3, entonces el término t1 es la ocurrencia de segundo orden con el término t3. Puede ir a un orden superior si lo desea, pero al final controla lo similares que deberían ser dos palabras.
fuente