Modelado con más variables que puntos de datos

12

Soy bastante nuevo en Machine Learning / Modeling y me gustaría conocer algunos antecedentes de este problema. Tengo un conjunto de datos donde el número de observaciones es sin embargo, el número de variables es . En primer lugar, ¿tiene sentido considerar la construcción de un modelo en un conjunto de datos como este o debería considerarse una técnica de selección de variables para comenzar, como la regresión de cresta o el lazo? He leído que esta situación puede llevar a un ajuste excesivo. ¿Es ese el caso de todas las técnicas de ML o algunas técnicas manejan esto mejor que otras? Sin demasiadas matemáticas , se agradecería una explicación simple de por qué las matemáticas comienzan a descomponerse para . $n<200$ $p\sim 8000$ $p>n$

regression machine-learning dimensionality-reduction penalized PaulB.
fuente

14

Ciertamente es posible ajustar buenos modelos cuando hay más variables que puntos de datos, pero esto debe hacerse con cuidado.

Cuando hay más variables que puntos de datos, el problema puede no tener una solución única a menos que esté más restringido. Es decir, puede haber múltiples (quizás infinitas) soluciones que se ajusten igualmente bien a los datos. Tal problema se llama 'mal planteado' o 'subdeterminado'. Por ejemplo, cuando hay más variables que puntos de datos, la regresión estándar de mínimos cuadrados tiene infinitas soluciones que logran un error cero en los datos de entrenamiento.

Tal modelo ciertamente se sobreajustará porque es 'demasiado flexible' para la cantidad de datos de entrenamiento. A medida que aumenta la flexibilidad del modelo (por ejemplo, más variables en un modelo de regresión) y la cantidad de datos de entrenamiento se reduce, es cada vez más probable que el modelo pueda lograr un error bajo ajustando fluctuaciones aleatorias en los datos de entrenamiento que no representan el verdadera, distribución subyacente. Por lo tanto, el rendimiento será pobre cuando el modelo se ejecute en datos futuros extraídos de la misma distribución.

Los problemas de mala postura y sobreajuste pueden abordarse imponiendo restricciones. Esto puede tomar la forma de restricciones explícitas sobre los parámetros, un término de penalización / regularización o un previo bayesiano. La capacitación se convierte en una compensación entre ajustar bien los datos y satisfacer las restricciones. Usted mencionó dos ejemplos de esta estrategia para problemas de regresión: 1) LASSO restringe o penaliza la norma de los pesos, lo que equivale a imponer un previo laplaciano. 2) La regresión de cresta restringe o penaliza la norma de los pesos, lo que equivale a imponer un previo gaussiano. $\ell_1$ $\ell_2$

Las restricciones pueden proporcionar una solución única, lo cual es deseable cuando deseamos interpretar el modelo para aprender algo sobre el proceso que generó los datos. También pueden producir un mejor rendimiento predictivo al limitar la flexibilidad del modelo, reduciendo así la tendencia al sobreajuste.

Sin embargo, simplemente imponer restricciones o garantizar que exista una solución única no implica que la solución resultante sea buena. Las restricciones solo producirán buenas soluciones cuando en realidad sean adecuadas para el problema.

Un par de puntos varios:

La existencia de múltiples soluciones no es necesariamente problemática. Por ejemplo, las redes neuronales pueden tener muchas soluciones posibles que son distintas entre sí pero casi igualmente buenas.
La existencia de más variables que puntos de datos, la existencia de múltiples soluciones y el sobreajuste a menudo coinciden. Pero, estos son conceptos distintos; cada uno puede ocurrir sin los otros.

usuario20160
fuente

3

Hay muchas soluciones para una suma de términos que es igual a : , , por ejemplo. $3$ $3=7-3-1$ $3=1234-23451+22220$

Sin supuestos adicionales, uno no puede obtener una solución muy significativa. En la práctica, puede suponer que no tiene más de dos términos distintos de cero (hipótesis de dispersión), y puede restringirlos para que sean positivos (hipótesis de positividad). En tal caso, terminas con trillizos ordenados como o , un conjunto reducido que puedes explorar como posibles soluciones "prácticas" que se probarán. $(3, 0, 0)$ $(2, 1, 0)$

Para esto está destinada la regresión penalizada (como lazo o cresta): encontrar un subconjunto manejable de soluciones "más simples", potencialmente más natural en cierta medida. Utilizan la ley de la parsimonia, o la navaja de afeitar de Ockham , para lo cual si dos modelos explican la observación con la misma precisión, puede ser más sabio elegir el más compacto en términos de, por ejemplo, el número de parámetros libres. Uno realmente no "explica" la relación útil entre variables con modelos demasiado involucrados.

Una cita atribuida a John von Neumann ilustra este contexto:

Con cuatro parámetros puedo acomodar a un elefante, y con cinco puedo hacer que mueva su trompa.

Laurent Duval
fuente

Modelado con más variables que puntos de datos

Respuestas: