Con respecto a las pruebas de hipótesis, la estimación de los tamaños de las muestras se realiza a través del poder, y es intuitivo que al aumentar el mismo tamaño aumenta la precisión de los efectos estimados. Pero, ¿qué pasa con la predicción tanto para la clasificación como para la regresión? ¿Qué aspectos del problema de predicción están influenciados por el tamaño de la muestra además de estimar el error de generalización o RMSE para la regresión?
En resumen, las propiedades que contribuyen al poder en el entorno de prueba de hipótesis difieren de aquellas que permiten la predicción exitosa a través de la regresión penalizada / minería de datos / modelado algorítmico. ¿Cómo influye el tamaño de la muestra en el éxito de estas técnicas?
Un artículo que describe esta idea es este .
¿Alguien puede proporcionar referencias para sus comentarios? Gracias.
Respuestas:
Básicamente, creo que preguntas intuitivamente cómo el tamaño de la muestra afecta las técnicas de aprendizaje automático. Entonces, el factor real que afecta los tamaños de muestra requeridos es la dimensionalidad del espacio en el que viven los datos y su escasez. Te daré dos ejemplos, porque me resulta difícil resumir todo en uno ...
Digamos que tiene algunos datos densos e intenta ajustar un modelo utilizando alguna regresión. Si los datos siguen un polinomio de gradon entonces necesitas más que n datos para que su algoritmo pueda encontrar la curva correcta. De lo contrario, hará un modelo demasiado simplista, diferente de la realidad. Por supuesto, en realidad habrá ruido, por lo que necesitará aún más datos para hacer un mejor modelo.
Digamos que tiene algunos datos escasos, es decir, la mayoría de las dimensiones son ceros. Tal ejemplo es texto, como tweets o SMS (olvídate de los libros por ahora), donde la frecuencia de cada palabra es una dimensión y, por supuesto, los documentos no tienen la mayoría de las palabras en el diccionario (espacio escaso). Intenta clasificar los tweets en función de su tema. Algoritmos, como kNN, SVM, etc., funcionan en similitudes entre muestras, por ejemplo, 1-NN encontrará el tweet en el conjunto de entrenamiento más cercano al que intenta clasificar y le asignará la etiqueta correspondiente. Sin embargo, debido a la escasez ... adivina qué ... ¡la mayoría de las similitudes son cero! Simplemente porque los documentos no comparten suficientes palabras. Para poder hacer predicciones, necesita suficientes datos para que algo en su conjunto de entrenamiento se parezca a los documentos desconocidos que intenta clasificar.
fuente
No entiendo la pregunta completamente. En general, una muestra más grande producirá (por ejemplo) una mejor clasificación. A menos que más grande signifique observaciones de mala calidad. Una pequeña muestra hará que muchos modelos sean inútiles. Por ejemplo, dado que los modelos basados en árboles son una especie de enfoque de "divide y vencerás", su eficiencia depende mucho del tamaño de la muestra de entrenamiento.
Por otro lado, si está interesado en el aprendizaje estadístico en altas dimensiones, creo que su preocupación tiene más que ver con la maldición de la dimensionalidad. Si el tamaño de su muestra es "pequeño" y su espacio de características es de una dimensión "alta", sus datos se comportarán como si fueran escasos y la mayoría de los algoritmos lo pasarán mal tratando de darle sentido. Citando a John A. Richards en el análisis de imagen digital de teledetección:
Lo que significaría que el problema es doble, encontrar características relevantes y el tamaño de muestra que menciona. A partir de ahora puede descargar el libro de forma gratuita si lo busca en google.
Otra forma de leer su pregunta que me interesa particularmente sería esta: en el aprendizaje supervisado solo puede validar realmente sus modelos en los datos de prueba mediante validación cruzada y lo que no. Si la muestra etiquetada de la que obtuvo sus muestras de tren / prueba no representa bien su universo, los resultados de la validación podrían no aplicarse a su universo. ¿Cómo puede medir la representatividad de su muestra etiquetada?
fuente