Los métodos de selección de variables algorítmicas escalonadas tienden a seleccionar modelos que sesgan más o menos todas las estimaciones en los modelos de regresión ( y sus SE, valores p , estadísticas F , etc.), y tienen la misma probabilidad de excluir predictores verdaderos como incluir predictores falsos de acuerdo con una literatura de simulación razonablemente madura.
¿El LASSO sufre de las mismas formas específicas cuando se usa para seleccionar variables?
11.4.1 Variable-Selection Consistency for the Lasso
Respuestas:
La interpretación de probabilidad de las expresiones de verosimilitud frecuentes, los valores de p, etcétera, para un modelo LASSO y la regresión por pasos, no son correctos.
Esas expresiones sobrestiman la probabilidad. Por ejemplo, se supone que un intervalo de confianza del 95% para algún parámetro indica que tiene una probabilidad del 95% de que el método dé como resultado un intervalo con la verdadera variable del modelo dentro de ese intervalo.
Sin embargo, los modelos ajustados no son el resultado de una hipótesis única típica, y en su lugar estamos escogiendo (seleccionamos entre muchos modelos alternativos posibles) cuando hacemos regresión por pasos o regresión LASSO.
Tiene poco sentido evaluar la corrección de los parámetros del modelo (especialmente cuando es probable que el modelo no sea correcto).
Ejemplo: el siguiente gráfico que muestra los resultados de un modelo de juguete para una señal que es una suma lineal de 10 curvas gaussianas (esto puede, por ejemplo, parecerse a un análisis en química en el que una señal para un espectro se considera una suma lineal de varios componentes) La señal de las 10 curvas está equipada con un modelo de 100 componentes (curvas gaussianas con diferente media) usando LASSO. La señal está bien estimada (compare las curvas roja y negra que están razonablemente cerca). Pero, los coeficientes subyacentes reales no están bien estimados y pueden estar completamente equivocados (compare las barras rojas y negras con puntos que no son lo mismo). Ver también los últimos 10 coeficientes:
El modelo LASSO selecciona coeficientes que son muy aproximados, pero desde la perspectiva de los coeficientes mismos significa un gran error cuando se estima que un coeficiente que no debería ser cero es cero y se estima que un coeficiente vecino que debería ser cero distinto de cero Cualquier intervalo de confianza para los coeficientes tendría muy poco sentido.
Montaje LASSO
Ajuste gradual
Como comparación, la misma curva puede ajustarse con un algoritmo paso a paso que conduce a la imagen a continuación. (con problemas similares que los coeficientes están cerca pero no coinciden)
Incluso cuando considera la precisión de la curva (en lugar de los parámetros, que en el punto anterior queda claro que no tiene sentido), entonces tiene que lidiar con el sobreajuste. Cuando realiza un procedimiento de adaptación con LASSO, utiliza datos de entrenamiento (para ajustar los modelos con diferentes parámetros) y datos de prueba / validación (para ajustar / encontrar cuál es el mejor parámetro), pero también debe usar un tercer conjunto separado de datos de prueba / validación para conocer el rendimiento de los datos.
Un valor p o algo similar no funcionará porque está trabajando en un modelo ajustado que es muy diferente y (mucho mayor libertad) del método regular de ajuste lineal.
Pensé que la razón principal para usar LASSO en lugar de la regresión gradual es que LASSO permite una selección de parámetros menos codiciosa, que está menos influenciada por la multicollinaridad. (más diferencias entre LASSO y paso a paso: superioridad de LASSO sobre la selección hacia adelante / eliminación hacia atrás en términos del error de predicción de validación cruzada del modelo )
Código para la imagen de ejemplo
fuente
- Frank Harrell
- Adrian
- Adrian
fuente