¿Cómo hacer una clasificación de texto de una clase?

14

Tengo que lidiar con un problema de clasificación de texto. Un rastreador web rastrea páginas web de un determinado dominio y para cada página web quiero saber si pertenece o no a una clase específica. Es decir, si llamo a esta clase Positiva , cada página web rastreada pertenece a la clase Positiva o a la clase No Positiva .

Ya tengo un gran conjunto de páginas web de capacitación para la clase Positiva . Pero, ¿cómo crear un conjunto de capacitación para la clase No positiva que sea lo más representativo posible? Quiero decir, básicamente podría usar cada uno y todo para esa clase. ¿Puedo recopilar algunas páginas arbitrarias que definitivamente no pertenecen a la clase Positiva ? Estoy seguro de que el rendimiento de un algoritmo de clasificación de texto (prefiero utilizar un algoritmo Naive Bayes) depende en gran medida de las páginas web que elija para la clase No positivo .

Entonces, ¿qué debo hacer? ¿Alguien puede darme un consejo? ¡Muchas gracias!

pemistahl
fuente
De hecho, esto es una agrupación de dos clases ya que tiene dos clases. Para una clase, solo tendría una clase y estaría interesado en evaluar qué tan bien se ajustan sus observaciones a los datos (es decir, detectar valores atípicos).
Tim
Este problema de aprendizaje tiene un nombre: aprendizaje de PU. Esto se debe usar naturalmente si los ejemplos positivos son fáciles o naturales de obtener, pero los negativos son básicamente todo lo demás (difícil de obtener). En principio, desea aprender un clasificador estándar de dos clases pero con un criterio diferente: optimice el área bajo la curva PR. Este paquete de software le permite entrenar un clasificador de este tipo code.google.com/p/sofia-ml
Vladislavs Dovgalecs

Respuestas:

5

El algoritmo Spy EM resuelve exactamente este problema.

S-EM es un sistema de aprendizaje o clasificación de texto que aprende de un conjunto de ejemplos positivos y no etiquetados (sin ejemplos negativos). Se basa en una técnica de "espía", ingenuo Bayes y algoritmo EM.

La idea básica es combinar su conjunto positivo con un montón de documentos rastreados al azar. Inicialmente, trata todos los documentos rastreados como la clase negativa y aprende un clasificador ingenuo de bayes en ese conjunto. Ahora, algunos de esos documentos rastreados serán realmente positivos, y usted puede volver a etiquetar de manera conservadora cualquier documento que tenga una puntuación más alta que el documento positivo verdadero con la puntuación más baja. Luego iteras este proceso hasta que se estabiliza.

rrenaud
fuente
Muchas gracias, eso suena bastante prometedor. Lo echaré un vistazo.
pemistahl
6

Aquí hay una buena tesis sobre la clasificación de una clase:

  • Impuesto, DM: clasificación de una clase - Aprendizaje conceptual en ausencia de contraejemplos , tesis doctoral, Technische Universiteit Delft, 2001. ( pdf )

Esta tesis presenta el método de Descripción de datos vectoriales de soporte (SVDD), una máquina de vectores de soporte de una clase que encuentra una hiperesfera mínima alrededor de los datos en lugar de un hiperplano que separa los datos.

La tesis también revisa otros clasificadores de una clase.

protuberancia
fuente
Bienvenido al sitio, @nub. Esperamos construir un repositorio permanente de información estadística, como tal, nos preocupa la posibilidad de linkrot. ¿Le importaría dar un resumen de la información en esa tesis en caso de que el enlace se cierre?
gung - Restablecer Monica
Gracias por resumir Registre y combine sus cuentas (puede averiguar cómo hacerlo en la sección Mi cuenta de nuestro centro de ayuda ), luego podrá editar y comentar sus propias publicaciones.
gung - Restablece a Monica
@gung Gracias por la bienvenida. Estoy encantado de haber recibido la insignia "Yearling" en el propio StackOverflow, por lo que ahora puedo comentar en todas partes.
JosiahYoder-deactive excepto ...
@JosiahYoder, si usted es el OP aquí, combine sus cuentas. Puede averiguar cómo hacerlo en la sección Mi cuenta de nuestro centro de ayuda .
gung - Restablece a Monica
No soy el OP. Solo un usuario SO aleatorio que se cruzó con esta pregunta.
Josiah
1

Una buena capacitación requiere datos que brinden buenas estimaciones de las probabilidades individuales de la clase. Cada problema de clasificación involucra al menos dos clases. En su caso, la segunda clase es cualquiera que no esté en la clase positiva. Para formar un buen límite de decisión utilizando Bayes o cualquier otro método bueno, es mejor hacerlo con la mayor cantidad de datos de entrenamiento seleccionados al azar de la clase. Si realiza una selección no aleatoria, puede obtener una muestra que realmente no representa la forma de las densidades / distribuciones condicionales de la clase y podría conducir a una mala elección del límite de decisión.

Michael R. Chernick
fuente
1
Tienes razón, esto es exactamente lo que me molesta. ¿Cómo seleccionar una muestra de muestras no positivas que conduzca a un buen límite de decisión? ¿Hacer una selección aleatoria es lo mejor que puedo hacer?
pemistahl
0

Estoy de acuerdo con Michael

Con respecto a su pregunta sobre la selección aleatoria; sí: debe seleccionar aleatoriamente del conjunto complementario de sus 'positivos'. Si existe alguna confusión de que es posible que sus 'positivos' no estén completamente definidos como 'puro positivo', si puedo usar esa frase, entonces también puede intentar al menos algún tipo de definición coincidente para positivos para que pueda control sobre aquellas variables que están generando potencialmente algo de contaminación en la definición de 'positivo'. En este caso, también debe hacer coincidir las mismas variables en el lado 'no positivo'.

crmportals
fuente
0

Un artículo que puede ser de interés es:

"Clasificación centroide encogida más cercana extendida: un nuevo método para la atribución de autoría de conjuntos abiertos de textos de diferentes tamaños", Schaalje, Fields, Roper y Snow. Computación literaria y lingüística, vol. 26, N ° 1, 2011.

Que toma un método para atribuir un texto a un conjunto de autores y lo extiende para usar la posibilidad de que el verdadero autor no esté en el conjunto de candidatos. Incluso si no utiliza el método NSC, las ideas en el documento pueden ser útiles para pensar cómo proceder.

Greg Snow
fuente