¿Qué tan grande se necesita un conjunto de entrenamiento?

24

¿Existe un método común utilizado para determinar cuántas muestras de entrenamiento se requieren para entrenar a un clasificador (un LDA en este caso) para obtener un umbral mínimo de precisión de generalización?

Lo pregunto porque me gustaría minimizar el tiempo de calibración que generalmente se requiere en una interfaz cerebro-computadora.

Lunat1c
fuente
2
user2030669, la respuesta a continuación @cbeleites es excelente, pero como regla general: necesita al menos 6 veces el número de casos (muestras) como características.
BGreene
2
... en cada clase. También he visto recomendaciones de 5p y 3p / clase.
cbeleites apoya a Monica

Respuestas:

31

El término de búsqueda que está buscando es "curva de aprendizaje", que proporciona el rendimiento (promedio) del modelo en función del tamaño de la muestra de entrenamiento.

Las curvas de aprendizaje dependen de muchas cosas, p. Ej.

  • método de clasificación
  • complejidad del clasificador
  • qué tan bien están separadas las clases.

(Creo que para la LDA de dos clases es posible que pueda derivar algunos cálculos de potencia teóricos, pero el hecho crucial es siempre si sus datos realmente cumplen con la suposición de "COV multivariante normal normal". Me gustaría realizar alguna simulación para ambas LDA supuestos y remuestreo de sus datos ya existentes).

Hay dos aspectos del rendimiento de un clasificador entrenado en un tamaño de muestra finito (como de costumbre),n

  • sesgo, es decir, en promedio, un clasificador entrenado en muestras de entrenamiento es peor que el clasificador entrenado en casos de entrenamiento (esto generalmente se entiende por curva de aprendizaje), ynn=
  • varianza: un conjunto de entrenamiento dado de casos puede conducir a un rendimiento del modelo bastante diferente. Incluso con pocos casos, puede tener suerte y obtener buenos resultados. O tienes mala suerte y obtienes un clasificador realmente malo. Como de costumbre, esta variación disminuye con el aumento del tamaño de la muestra de entrenamiento .nn

    n

Otro aspecto que debe tener en cuenta es que, por lo general, no es suficiente entrenar a un buen clasificador, pero también debe demostrar que el clasificador es bueno (o lo suficientemente bueno). Por lo tanto, debe planificar también el tamaño de muestra necesario para la validación con una precisión dada. Si necesita dar estos resultados como una fracción del éxito entre tantos casos de prueba (por ejemplo, precisión / precisión / sensibilidad / valor predictivo positivo del productor o consumidor), y la tarea de clasificación subyacente es bastante fácil, esto puede necesitar más casos independientes que la capacitación de Un buen modelo.

Como regla general, para el entrenamiento, el tamaño de la muestra generalmente se discute en relación con la complejidad del modelo (número de casos: número de variantes), mientras que los límites absolutos en el tamaño de la muestra de prueba se pueden dar para una precisión requerida de la medición del rendimiento.

Aquí hay un documento, donde explicamos estas cosas con más detalle, y también discutimos cómo
construir curvas de aprendizaje: Beleites, C. y Neugebauer, U. y Bocklitz, T. y Krafft, C. y Popp, J .: Planificación del tamaño de la muestra para modelos de clasificación. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrito aceptado en arXiv: 1211.1323

Este es el "avance", que muestra un problema de clasificación fácil (en realidad tenemos una distinción fácil como esta en nuestro problema de clasificación, pero otras clases son mucho más difíciles de distinguir): teaser muestra el papel de planificación

No tratamos de extrapolar a tamaños de muestra de entrenamiento más grandes para determinar cuánto más se necesitan casos de entrenamiento, porque los tamaños de muestra de prueba son nuestro cuello de botella, y los tamaños de muestra de entrenamiento más grandes nos permitirían construir modelos más complejos, por lo que la extrapolación es cuestionable. Para el tipo de conjuntos de datos que tengo, abordaría esto de forma iterativa, midiendo un montón de casos nuevos, mostrando cuánto mejoraron las cosas, midiendo más casos, etc.

Esto puede ser diferente para usted, pero el documento contiene referencias bibliográficas a documentos que utilizan extrapolación a tamaños de muestra más altos para estimar el número requerido de muestras.

cbeleites apoya a Monica
fuente
¿El uso de un esquema de regularización para mi LDA me permitiría trabajar con un conjunto de entrenamiento más pequeño?
Lunat1c
1
@ user2036690, un modelo más parsimonioso (menos funciones) necesitaría menos muestras de entrenamiento. Un esquema de regularización no afectaría el número de muestras necesarias, si solo redujera el impacto de características menos importantes. Algún tipo de racionalización de características puede permitir un conjunto de entrenamiento más pequeño
BGreene
1
Sin embargo, la selección de características basada en datos necesita enormes cantidades de muestras, ya que cada comparación de modelo es, de hecho, una prueba estadística. Sin embargo, la selección de funciones por conocimiento experto puede ayudar de inmediato. @BGreene: ¿puede ampliar por qué la regularización no puede ayudar a reducir los requisitos de tamaño de la muestra (por ejemplo, considerando una cresta en una matriz de covarianza mal acondicionada)? En mi humilde opinión, no puede hacer maravillas, pero puede ayudar.
cbeleites apoya a Monica el
Bueno, sin entrar en una discusión épica, me refería a la formulación de regularización de Friedman en lugar de a la cresta u otra regresión penalizada. Pero de cualquier manera, los coeficientes no se reducen a cero como en Lasso, por lo que la dimensionalidad no se ve afectada, lo que como resultado no tendría ningún efecto sobre el tamaño de la muestra necesaria para evitar una matriz mal planteada como se menciona anteriormente. Disculpas si esto parece incoherente
BGreene
@BGreene: sin divagar, le pregunté de nuevo. La pregunta interesante es: ¿cuánto se reduce la df / complejidad general al establecer los coeficientes a cero de una manera basada en datos ? De todos modos, nos estamos adentrando en una historia diferente ...
cbeleites apoya a Monica el
4

Preguntar sobre el tamaño de la muestra de entrenamiento implica que va a retener los datos para la validación del modelo. Este es un proceso inestable que requiere un gran tamaño de muestra. A menudo se prefiere una validación interna fuerte con bootstrap. Si elige esa ruta, solo necesita calcular el tamaño de muestra. Como @cbeleites dijo tan bien, a menudo se trata de una evaluación de "eventos por variable candidato", pero necesita un mínimo de 96 observaciones para predecir con precisión la probabilidad de un resultado binario, incluso si no hay características para examinar [esto es para lograr 0.95 margen de error de confianza de 0.1 al estimar la probabilidad marginal real de que Y = 1].

Es importante tener en cuenta las reglas de puntuación adecuadas para la evaluación de precisión (p. Ej., Puntaje de Brier y registro de probabilidad / desviación). También asegúrese de que realmente desea clasificar las observaciones en lugar de estimar la probabilidad de membresía. Este último es casi siempre más útil ya que permite una zona gris.

Frank Harrell
fuente