Número de características frente a número de observaciones

26

¿Hay documentos / libros / ideas sobre la relación entre el número de características y el número de observaciones que uno necesita para formar un clasificador "robusto"?

Por ejemplo, suponga que tengo 1000 características y 10 observaciones de dos clases como conjunto de entrenamiento, y otras 10 observaciones como conjunto de prueba. Entreno un clasificador X y me da 90% de sensibilidad y 90% de especificidad en el conjunto de pruebas. Digamos que estoy contento con esta precisión y en base a eso puedo decir que es un buen clasificador. Por otro lado, he aproximado una función de 1000 variables usando solo 10 puntos, lo que puede parecer poco ... ¿robusto?

León
fuente

Respuestas:

20

Lo que has encontrado aquí es la maldición de la dimensionalidad o el problema p >> n (donde p son predictores yn son observaciones). Se han desarrollado muchas técnicas a lo largo de los años para resolver este problema. Puede usar AIC o BIC para penalizar modelos con más predictores. Puede elegir conjuntos aleatorios de variables y evaluar su importancia mediante la validación cruzada . Puede usar la regresión de cresta , el lazo o la red elástica para la regularización . O puede elegir una técnica, como una máquina de vectores de soporte o un bosque aleatorio que se adapte bien a una gran cantidad de predictores.

Honestamente, la solución depende de la naturaleza específica del problema que está tratando de resolver.

Zach
fuente
9

+1-10.000001yoyo, ninguna cantidad de datos de entrenamiento le dará un clasificador útil. Al final del día, la cantidad de muestras que necesita para un número determinado de características depende de cómo se distribuyan los datos, en general, cuantas más características tenga, más datos necesitará para describir adecuadamente la distribución de los datos. (exponencial en el número de características si no tiene suerte, vea la maldición de la dimensionalidad mencionada por Zach).

Si usa la regularización, entonces en principal, (un límite superior activado) el error de generalización es independiente de la cantidad de características (consulte el trabajo de Vapnik en la máquina de vectores de soporte). Sin embargo, eso deja el problema de encontrar un buen valor para el parámetro de regularización (la validación cruzada es útil).

Dikran Marsupial
fuente
9

Probablemente esté demasiado impresionado con el modelado clásico, que es vulnerable a los problemas de paradoja de Runge y, por lo tanto, requiere un poco de ajuste de parsimonia en el procesamiento posterior.
Sin embargo, en el caso del aprendizaje automático, la idea de incluir la robustez como un objetivo de la optimización del modelo es solo el núcleo de todo el dominio (a menudo expresado como precisión en datos no vistos). Entonces, bueno, siempre que sepa que su modelo funciona bien (por ejemplo, de CV), probablemente no tenga sentido molestarse.

pagsnorte


fuente
1

Uno de mis libros más valiosos a lo largo de los años ha sido el Manual de Tinsley y Brown . Hay muchos lugares en el libro donde se discute este tema, por diferentes autores contribuyentes.

rolando2
fuente