Un poco más de información; suponer que
- usted sabe de antemano cuántas variables seleccionar y que establece la penalización de complejidad en el procedimiento LARS, como tener exactamente tantas variables con coeficientes distintos de 0,
- los costos de cálculo no son un problema (el número total de variables es pequeño, digamos 50),
- que todas las variables (y, x) son continuas.
¿En qué contexto el modelo LARS (es decir, el ajuste OLS de aquellas variables que tienen coeficientes distintos de cero en el ajuste LARS) sería más diferente de un modelo con el mismo número de coeficientes pero encontrado a través de una búsqueda exhaustiva (a la regsubsets ())?
Editar: estoy usando 50 variables y 250 observaciones con los coeficientes reales extraídos de un gaussiano estándar, excepto 10 de las variables que tienen coeficientes 'reales' de 0 (y todas las características están fuertemente correlacionadas entre sí). Obviamente, esta configuración no es buena ya que las diferencias entre los dos conjuntos de variables seleccionadas son mínimas. Esta es realmente una pregunta sobre qué tipo de configuración de datos se debe simular para obtener la mayor cantidad de diferencias.
fuente
Cuantas más funciones tenga, en relación con el número de muestras, es más probable que tenga un ajuste excesivo con el método de búsqueda exhaustivo que con LARS. El término de penalización utilizado en LARS impone una estructura anidada de modelos cada vez más complejos, indexados por un único parámetro de regularización, por lo que los "grados de libertad" de selección de características con LARS son bastante bajos. Para la búsqueda exhaustiva, existe efectivamente un grado (binario) de libertad por característica, lo que significa que la búsqueda exhaustiva es más capaz de explotar la variabilidad aleatoria en el criterio de selección de características debido al muestreo aleatorio de los datos. Como resultado, es probable que el modelo de búsqueda exhaustivo se ajuste severamente al criterio de selección de características, ya que la "clase de hipótesis" es más grande.
fuente