Tengo un conjunto de datos binarios altamente sesgado: tengo 1000 veces más ejemplos de la clase negativa que la clase positiva. Me gustaría entrenar un conjunto de árboles (como árboles extra aleatorios o un bosque aleatorio) sobre estos datos, pero es difícil crear conjuntos de datos de entrenamiento que contengan suficientes ejemplos de la clase positiva.
¿Cuáles serían las implicaciones de hacer un enfoque de muestreo estratificado para normalizar el número de ejemplos positivos y negativos? En otras palabras, ¿es una mala idea, por ejemplo, inflar artificialmente (volviendo a muestrear) el número de ejemplos de clase positivos en el conjunto de entrenamiento?