Tengo que lidiar con un problema de clasificación de texto. Un rastreador web rastrea páginas web de un determinado dominio y para cada página web quiero saber si pertenece o no a una clase específica. Es decir, si llamo a esta clase Positiva , cada página web rastreada pertenece a la clase Positiva o a la clase No Positiva .
Ya tengo un gran conjunto de páginas web de capacitación para la clase Positiva . Pero, ¿cómo crear un conjunto de capacitación para la clase No positiva que sea lo más representativo posible? Quiero decir, básicamente podría usar cada uno y todo para esa clase. ¿Puedo recopilar algunas páginas arbitrarias que definitivamente no pertenecen a la clase Positiva ? Estoy seguro de que el rendimiento de un algoritmo de clasificación de texto (prefiero utilizar un algoritmo Naive Bayes) depende en gran medida de las páginas web que elija para la clase No positivo .
Entonces, ¿qué debo hacer? ¿Alguien puede darme un consejo? ¡Muchas gracias!
fuente
Respuestas:
El algoritmo Spy EM resuelve exactamente este problema.
La idea básica es combinar su conjunto positivo con un montón de documentos rastreados al azar. Inicialmente, trata todos los documentos rastreados como la clase negativa y aprende un clasificador ingenuo de bayes en ese conjunto. Ahora, algunos de esos documentos rastreados serán realmente positivos, y usted puede volver a etiquetar de manera conservadora cualquier documento que tenga una puntuación más alta que el documento positivo verdadero con la puntuación más baja. Luego iteras este proceso hasta que se estabiliza.
fuente
Aquí hay una buena tesis sobre la clasificación de una clase:
Esta tesis presenta el método de Descripción de datos vectoriales de soporte (SVDD), una máquina de vectores de soporte de una clase que encuentra una hiperesfera mínima alrededor de los datos en lugar de un hiperplano que separa los datos.
La tesis también revisa otros clasificadores de una clase.
fuente
Una buena capacitación requiere datos que brinden buenas estimaciones de las probabilidades individuales de la clase. Cada problema de clasificación involucra al menos dos clases. En su caso, la segunda clase es cualquiera que no esté en la clase positiva. Para formar un buen límite de decisión utilizando Bayes o cualquier otro método bueno, es mejor hacerlo con la mayor cantidad de datos de entrenamiento seleccionados al azar de la clase. Si realiza una selección no aleatoria, puede obtener una muestra que realmente no representa la forma de las densidades / distribuciones condicionales de la clase y podría conducir a una mala elección del límite de decisión.
fuente
Estoy de acuerdo con Michael
Con respecto a su pregunta sobre la selección aleatoria; sí: debe seleccionar aleatoriamente del conjunto complementario de sus 'positivos'. Si existe alguna confusión de que es posible que sus 'positivos' no estén completamente definidos como 'puro positivo', si puedo usar esa frase, entonces también puede intentar al menos algún tipo de definición coincidente para positivos para que pueda control sobre aquellas variables que están generando potencialmente algo de contaminación en la definición de 'positivo'. En este caso, también debe hacer coincidir las mismas variables en el lado 'no positivo'.
fuente
Un artículo que puede ser de interés es:
Que toma un método para atribuir un texto a un conjunto de autores y lo extiende para usar la posibilidad de que el verdadero autor no esté en el conjunto de candidatos. Incluso si no utiliza el método NSC, las ideas en el documento pueden ser útiles para pensar cómo proceder.
fuente