Me enfrento a una situación en la que el número de ejemplos positivos y negativos en un conjunto de datos está desequilibrado.
Mi pregunta es, ¿hay alguna regla general que nos diga cuándo debemos submuestrear la categoría grande para forzar algún tipo de equilibrio en el conjunto de datos.
Ejemplos:
- Si el número de ejemplos positivos es 1,000 y el número de ejemplos negativos es 10,000, ¿debería ir a entrenar a mi clasificador en el conjunto de datos completo o debería submuestrear los ejemplos negativos?
- La misma pregunta para 1,000 ejemplos positivos y 100,000 negativos.
- La misma pregunta para 10,000 positivos y 1,000 negativos.
- etc ...
Respuestas:
Creo que el submuestreo (submuestreo) es un método popular para controlar el desequilibrio de clase en el nivel base, lo que significa que soluciona la raíz del problema. Entonces, para todos sus ejemplos, seleccionar aleatoriamente 1,000 de la mayoría de la clase cada vez funcionaría. Incluso podría jugar haciendo 10 modelos (10 pliegues de 1,000 mayorías versus 1,000 minorías) para que use todo su conjunto de datos. Puede usar este método, pero nuevamente está tirando 9,000 muestras a menos que pruebe algunos métodos de conjunto. Solución fácil, pero difícil de obtener un modelo óptimo basado en sus datos.
El grado en que necesita controlar el desequilibrio de clase se basa en gran medida en su objetivo. Si le importa la clasificación pura, entonces el desequilibrio afectaría el 50% de probabilidad de corte para la mayoría de las técnicas, por lo que consideraría reducir el muestreo. Si solo le importa el orden de las clasificaciones (generalmente quiere que los positivos sean más altos que los negativos) y usa una medida como AUC, el desequilibrio de clase solo sesgará sus probabilidades, pero el orden relativo debería ser decentemente estable para la mayoría de las técnicas.
La regresión logística es buena para el desequilibrio de clase porque siempre que tenga> 500 de la clase minoritaria, las estimaciones de los parámetros serán lo suficientemente precisas y el único impacto será en la intercepción, que puede corregirse si eso es algo que podría querer. La regresión logística modela las probabilidades en lugar de solo las clases, por lo que puede hacer más ajustes manuales para satisfacer sus necesidades.
Muchas técnicas de clasificación también tienen un argumento de ponderación de clase que lo ayudará a centrarse más en la clase minoritaria. Penalizará una clasificación de faltas de una verdadera clase minoritaria, por lo que su precisión general sufrirá un poco, pero comenzará a ver más clases minoritarias que están clasificadas correctamente.
fuente
El desequilibrio no se define formalmente, pero una relación de 1 a 10 generalmente está lo suficientemente desequilibrada como para beneficiarse del uso de la técnica de equilibrio.
Hay dos tipos de desequilibrio, relativo y absoluto. En lo relativo, las relaciones entre las clases mayoritarias y minoritarias están desequilibradas. En absoluto, también tiene un pequeño número de muestras minoritarias. Cuanto mayor sea la relación de desequilibrio, más probabilidades hay de que también alcance un desequilibrio absoluto.
Tenga en cuenta que el submuestreo directo no es una forma óptima de hacer frente a un conjunto de datos desequilibrado. Esto se debe a que debe crear un clasificador que funcione bien en su conjunto de datos original. Para ver una técnica para construir clasificadores en conjuntos de datos desequilibrados, consulte aquí . Para evaluar su clasificador ver aquí .
fuente
¿Problema de desequilibrio de datos? En teoría, solo se trata de números. Incluso si la diferencia es 1 muestra, es un desequilibrio de datos
En la práctica, decir que este es un problema de desequilibrio de datos está controlado por tres cosas: 1. El número y la distribución de las muestras que tiene 2. La variación dentro de la misma clase 3. Las similitudes entre diferentes clases
Los dos últimos puntos cambian la forma en que consideramos nuestro problema.
Para explicar esto, permítanme dar un ejemplo: Clase A = 100 muestras Clase B = 10 000
Si la variación dentro de la clase B es muy baja, entonces el muestreo descendente será suficiente, no hay problema de desequilibrio de datos
Si la variación es muy alta dentro de la clase b, entonces el muestreo descendente puede conducir a la pérdida de información y es peligroso aplicar el muestreo descendente
Otro punto, tener muchas muestras (principalmente para la clase minoritaria) aliviará el problema de desequilibrio de datos y facilitará el tratamiento
Ej. 10: 100. Vs. 1000: 10 000
fuente