El muestreo estratificado tiene como objetivo dividir un conjunto de datos para que cada división sea similar con respecto a algo.
En una configuración de clasificación, a menudo se elige para garantizar que el tren y los conjuntos de prueba tengan aproximadamente el mismo porcentaje de muestras de cada clase objetivo que el conjunto completo.
Como resultado, si el conjunto de datos tiene una gran cantidad de cada clase, el muestreo estratificado es casi lo mismo que el muestreo aleatorio. Pero si una clase no está muy representada en el conjunto de datos, lo que puede ser el caso en su conjunto de datos ya que planea sobremuestrear la clase minoritaria, entonces el muestreo estratificado puede producir una distribución de clase objetivo diferente en el tren y los conjuntos de prueba de lo que es aleatorio el muestreo puede rendir.
Tenga en cuenta que el muestreo estratificado también puede diseñarse para distribuir equitativamente algunas características en el próximo tren y conjuntos de prueba. Por ejemplo, si cada muestra representa a un individuo y una característica es la edad, a veces es útil tener la misma distribución de edad tanto en el tren como en el conjunto de prueba.
FYI:
Franck Dernoncourt
fuente