Tamaño de la muestra con respecto a la predicción en clasificación y regresión

8

Con respecto a las pruebas de hipótesis, la estimación de los tamaños de las muestras se realiza a través del poder, y es intuitivo que al aumentar el mismo tamaño aumenta la precisión de los efectos estimados. Pero, ¿qué pasa con la predicción tanto para la clasificación como para la regresión? ¿Qué aspectos del problema de predicción están influenciados por el tamaño de la muestra además de estimar el error de generalización o RMSE para la regresión?

En resumen, las propiedades que contribuyen al poder en el entorno de prueba de hipótesis difieren de aquellas que permiten la predicción exitosa a través de la regresión penalizada / minería de datos / modelado algorítmico. ¿Cómo influye el tamaño de la muestra en el éxito de estas técnicas?

Un artículo que describe esta idea es este .

¿Alguien puede proporcionar referencias para sus comentarios? Gracias.

julio
fuente
2
No está realmente claro lo que buscas aquí, ¿no es menos esta tarea? Una cosa que no está en las fórmulas es que los conjuntos de datos realmente grandes pueden traer mayores problemas de heterogeneidad, calidad de datos y valores perdidos. Los argumentos son visibles en las discusiones sobre los méritos relativos de los censos nacionales en comparación con encuestas por muestreo más estrictamente controladas.
Nick Cox
1
Agregué algunos detalles. He estado fuera de la escuela de posgrado durante años, ¡así que no hay tarea!
julieth
"problemas mayores de heterogeneidad, calidad de datos y valores faltantes": si el conjunto de datos pequeño es más homogéneo, la generalización (extrapolación a las situaciones cubiertas por el conjunto de datos grandes) es cuestionable / pobre. En otras palabras: puede sobreajustar al pequeño conjunto de datos. (A menos que grande implique una compensación wrt. [Señal] calidad)
cbeleites descontento con SX
Hay algunas medidas a considerar que incluyen error, generalización, parsimonia, operaciones de cómputo requeridas y tamaño de memoria requerido. Cuando miro esto, veo dos valores familiares: rendimiento y costo. La generalización, la forma y el error son sobre el rendimiento posterior al ajuste. Ellos son la recompensa. Calcular el tiempo, la complejidad del código, el tamaño de la memoria son aproximadamente lo difícil que es codificar, depurar y ejecutar los datos a través del modelo. Son sobre el costo. Cuando se piensa en "influencia", toda influencia conduce a esas dos medidas, o no existe.
EngrStudent

Respuestas:

1

Básicamente, creo que preguntas intuitivamente cómo el tamaño de la muestra afecta las técnicas de aprendizaje automático. Entonces, el factor real que afecta los tamaños de muestra requeridos es la dimensionalidad del espacio en el que viven los datos y su escasez. Te daré dos ejemplos, porque me resulta difícil resumir todo en uno ...

  • Digamos que tiene algunos datos densos e intenta ajustar un modelo utilizando alguna regresión. Si los datos siguen un polinomio de gradon entonces necesitas más que ndatos para que su algoritmo pueda encontrar la curva correcta. De lo contrario, hará un modelo demasiado simplista, diferente de la realidad. Por supuesto, en realidad habrá ruido, por lo que necesitará aún más datos para hacer un mejor modelo.

  • Digamos que tiene algunos datos escasos, es decir, la mayoría de las dimensiones son ceros. Tal ejemplo es texto, como tweets o SMS (olvídate de los libros por ahora), donde la frecuencia de cada palabra es una dimensión y, por supuesto, los documentos no tienen la mayoría de las palabras en el diccionario (espacio escaso). Intenta clasificar los tweets en función de su tema. Algoritmos, como kNN, SVM, etc., funcionan en similitudes entre muestras, por ejemplo, 1-NN encontrará el tweet en el conjunto de entrenamiento más cercano al que intenta clasificar y le asignará la etiqueta correspondiente. Sin embargo, debido a la escasez ... adivina qué ... ¡la mayoría de las similitudes son cero! Simplemente porque los documentos no comparten suficientes palabras. Para poder hacer predicciones, necesita suficientes datos para que algo en su conjunto de entrenamiento se parezca a los documentos desconocidos que intenta clasificar.

iliasfl
fuente
0

No entiendo la pregunta completamente. En general, una muestra más grande producirá (por ejemplo) una mejor clasificación. A menos que más grande signifique observaciones de mala calidad. Una pequeña muestra hará que muchos modelos sean inútiles. Por ejemplo, dado que los modelos basados ​​en árboles son una especie de enfoque de "divide y vencerás", su eficiencia depende mucho del tamaño de la muestra de entrenamiento.

Por otro lado, si está interesado en el aprendizaje estadístico en altas dimensiones, creo que su preocupación tiene más que ver con la maldición de la dimensionalidad. Si el tamaño de su muestra es "pequeño" y su espacio de características es de una dimensión "alta", sus datos se comportarán como si fueran escasos y la mayoría de los algoritmos lo pasarán mal tratando de darle sentido. Citando a John A. Richards en el análisis de imagen digital de teledetección:

Reducción de características y separabilidad

El costo de clasificación aumenta con el número de características utilizadas para describir los vectores de píxeles en el espacio multiespectral, es decir, con el número de bandas espectrales asociadas con un píxel. Para clasificadores como los procedimientos de paralelepípedo y distancia mínima, este es un aumento lineal con características; sin embargo, para la clasificación de máxima verosimilitud, el procedimiento que se prefiere con mayor frecuencia, el aumento de costos con las características es cuadrático. Por lo tanto, es razonable garantizar económicamente que no se utilicen más características de las necesarias al realizar una clasificación. La Sección 8.2.6 llama la atención sobre la cantidad de píxeles de entrenamiento necesarios para garantizar que se puedan obtener estimaciones confiables de las firmas de clase. En particular, el número de píxeles de entrenamiento requeridos aumenta con el número de bandas o canales en los datos. Para datos de alta dimensionalidad, como el de los espectrómetros de imágenes, ese requisito presenta un gran desafío en la práctica, por lo que es importante mantener el número de características utilizadas en una clasificación lo menos posible si se esperan resultados confiables de un número asequible de píxeles de entrenamiento. Las características que no ayudan a la discriminación, al contribuir poco a la separabilidad de las clases espectrales, deben descartarse. La eliminación de características menos efectivas se conoce como selección de características, siendo esta una forma de reducción de características. El otro es transformar el vector de píxeles en un nuevo conjunto de coordenadas en el que las características que se pueden eliminar se hacen más evidentes. Ambos procedimientos se consideran con cierto detalle en este capítulo. por lo tanto, es importante mantener el número de características utilizadas en una clasificación lo menos posible si se esperan resultados confiables de un número asequible de píxeles de entrenamiento. Las características que no ayudan a la discriminación, al contribuir poco a la separabilidad de las clases espectrales, deben descartarse. La eliminación de características menos efectivas se conoce como selección de características, siendo esta una forma de reducción de características. El otro es transformar el vector de píxeles en un nuevo conjunto de coordenadas en el que las características que se pueden eliminar se hacen más evidentes. Ambos procedimientos se consideran con cierto detalle en este capítulo. por lo tanto, es importante mantener el número de características utilizadas en una clasificación lo menos posible si se esperan resultados confiables de un número asequible de píxeles de entrenamiento. Las características que no ayudan a la discriminación, al contribuir poco a la separabilidad de las clases espectrales, deben descartarse. La eliminación de características menos efectivas se conoce como selección de características, siendo esta una forma de reducción de características. El otro es transformar el vector de píxeles en un nuevo conjunto de coordenadas en el que las características que se pueden eliminar se hacen más evidentes. Ambos procedimientos se consideran con cierto detalle en este capítulo. debe ser descartado La eliminación de características menos efectivas se conoce como selección de características, siendo esta una forma de reducción de características. El otro es transformar el vector de píxeles en un nuevo conjunto de coordenadas en el que las características que se pueden eliminar se hacen más evidentes. Ambos procedimientos se consideran con cierto detalle en este capítulo. debe ser descartado La eliminación de características menos efectivas se conoce como selección de características, siendo esta una forma de reducción de características. El otro es transformar el vector de píxeles en un nuevo conjunto de coordenadas en el que las características que se pueden eliminar se hacen más evidentes. Ambos procedimientos se consideran con cierto detalle en este capítulo.

Lo que significaría que el problema es doble, encontrar características relevantes y el tamaño de muestra que menciona. A partir de ahora puede descargar el libro de forma gratuita si lo busca en google.

Otra forma de leer su pregunta que me interesa particularmente sería esta: en el aprendizaje supervisado solo puede validar realmente sus modelos en los datos de prueba mediante validación cruzada y lo que no. Si la muestra etiquetada de la que obtuvo sus muestras de tren / prueba no representa bien su universo, los resultados de la validación podrían no aplicarse a su universo. ¿Cómo puede medir la representatividad de su muestra etiquetada?

JEquihua
fuente
Los estratos son una buena forma de medir la representatividad. Incluirlos en un modelo mixto con varianza estimada por REML es una buena manera de incorporar la incertidumbre sobre los estratos ausentes en sus predicciones.
chanceislogic
Totalmente fuera de tema, ¿me puede recomendar alguna bibliografía sobre Edwin Jaynes y "probabilidad como lógica extendida"? ¡Saludos!
JEquihua
este sitio web es un buen lugar para comenzar
probabilidadislogic