¿Por qué no se favorece la mejor selección de subconjuntos en comparación con el lazo?

13

Estoy leyendo sobre la mejor selección de subconjuntos en el libro Elementos de aprendizaje estadístico. Si tengo 3 predictores x1,x2,x3 , creo 23=8 subconjuntos:

  1. Subconjunto sin predictores
  2. subconjunto con predictor x1
  3. subconjunto con predictorx2
  4. subconjunto con predictor x3
  5. subconjunto con predictores x1,x2
  6. subconjunto con predictores x1,x3
  7. subconjunto con predictores x2,x3
  8. subconjunto con predictoresx1,x2,x3

Luego pruebo todos estos modelos en los datos de prueba para elegir el mejor.

Ahora mi pregunta es ¿por qué no se prefiere la mejor selección de subconjuntos en comparación con, por ejemplo, el lazo?

Si comparo las funciones de umbral del mejor subconjunto y lazo, veo que el mejor subconjunto establece algunos de los coeficientes en cero, como el lazo. Pero, el otro coeficiente (los que no son cero) todavía tendrán los valores de ols, no serán sesgados. Mientras que, en el lazo, algunos de los coeficientes serán cero y los otros (distintos de cero) tendrán algún sesgo. La siguiente figura lo muestra mejor: ingrese la descripción de la imagen aquí

De la imagen, la parte de la línea roja en el mejor caso de subconjunto se extiende sobre la línea gris. La otra parte se encuentra en el eje x donde algunos de los coeficientes son cero. La línea gris define las soluciones imparciales. En lazo, algunos sesgos son introducidos por . ¡De esta figura veo que el mejor subconjunto es mejor que el lazo! ¿Cuáles son las desventajas de usar el mejor subconjunto?λ

Ville
fuente
1
... ¿y cómo se ven las curvas cuando la aleatoriedad en los datos hace que seleccione uno de los muchos subconjuntos incorrectos y las estimaciones de coeficientes asociadas están lejos de cero en relación con sus errores estándar?
jbowman
2
@jbowman No lo entiendo muy claramente, ¿por qué la aleatoriedad en los datos me haría seleccionar el incorrecto? Si utilizara la validación cruzada para seleccionar el mejor subconjunto, tendría menos posibilidades de seleccionar el subconjunto incorrecto.
Ville
1
Parece que estás equiparando "menos sesgo" con "mejor". ¿Qué te lleva a poner un valor tan alto en la imparcialidad?
Matthew Drury

Respuestas:

16

En la selección de subconjuntos, los parámetros distintos de cero solo serán insesgados si ha elegido un superconjunto del modelo correcto, es decir, si ha eliminado solo los predictores cuyos valores de coeficiente verdadero son cero. Si su procedimiento de selección lo llevó a excluir un predictor con un verdadero coeficiente distinto de cero, todas las estimaciones de coeficientes estarán sesgadas. Esto anula su argumento si acepta que la selección generalmente no es perfecta.

Por lo tanto, para asegurarse de una estimación imparcial del modelo, debe equivocarse al incluir más o incluso todos los predictores potencialmente relevantes. Es decir, no debe seleccionar en absoluto.

¿Por qué es una mala idea? Debido a la compensación de sesgo-varianza. Sí, su modelo grande será imparcial, pero tendrá una gran varianza, y la varianza dominará el error de predicción (u otro).

Por lo tanto, es mejor aceptar que las estimaciones de los parámetros estarán sesgadas pero tendrán una varianza más baja (regularización), en lugar de esperar que nuestra selección de subconjuntos solo haya eliminado los parámetros cero verdaderos, por lo que tenemos un modelo imparcial con una varianza más grande.

Como escribe que evalúa ambos enfoques mediante validación cruzada, esto mitiga algunas de las preocupaciones anteriores. Queda un problema pendiente para el Mejor Subconjunto: restringe algunos parámetros para que sean exactamente cero y permite que los demás floten libremente. Por lo tanto, hay una discontinuidad en la estimación, que no existe si ajustamos el lazo más allá de un punto λ 0 donde se incluye o excluye un predictor p . Suponga que la validación cruzada genera un λ "óptimo" que está cerca de λ 0 , por lo que no estamos seguros de si p debería incluirse o no. En este caso, yo diría que tiene más sentido para restringir la estimación del parámetro β pλλ0pλλ0β^pa través del lazo para un valor pequeño (absoluto), en lugar de cualquiera de excluir por , o dejar que flote libremente, β p = β OLS p , como lo hace mejor subconjunto.β^p=0β^p=β^pOLS

Esto puede ser útil: ¿Por qué funciona la contracción?

Stephan Kolassa
fuente
Hmm No creo que esto responda por qué el mejor subconjunto es peor que el lazo (que es la pregunta principal aquí).
ameba dice Reinstate Monica
@amoeba: ¿te gustaría elaborar?
Stephan Kolassa
Bueno, entendí la pregunta como preguntar por qué se prefiere el lazo al mejor subconjunto. Imagine que ponemos ambos en un bucle de validación cruzada, y luego ajustamos el parámetro del lazo o encontramos el mejor subconjunto. El lazo generalmente se recomienda. Entendí la pregunta como preguntando ¿Por qué? (véase, por ejemplo, el título de la Q) y no estoy seguro de que su respuesta realmente responda eso. ¿O entendí mal tu respuesta?
ameba dice Reinstate Monica
1
λλ0ppλλ0β^p
1
De acuerdo en que esta respuesta realmente no responde a la pregunta: he agregado mi opinión sobre esto a continuación ...
Tom Wenseleers
11

En principio, si se puede encontrar el mejor subconjunto, de hecho es mejor que el LASSO, en términos de (1) seleccionar las variables que realmente contribuyen al ajuste, (2) no seleccionar las variables que no contribuyen al ajuste, (3) precisión de predicción y (4) producir estimaciones esencialmente insesgadas para las variables seleccionadas. Un artículo reciente que abogó por la calidad superior del mejor subconjunto sobre LASSO es el de Bertsimas et al (2016) "La mejor selección de subconjunto a través de una lente de optimización moderna" . Otro más antiguo que da un ejemplo concreto (sobre la deconvolución de los trenes de espigas) donde el mejor subconjunto era mejor que LASSO o cresta es el de De Rooi y Eilers (2011).

L0L1L0Lqla regresión penalizada por la norma con q cerca de 0 estaría, en principio, más cerca de la mejor selección de subconjuntos que LASSO, pero esto ya no es un problema de optimización convexa y, por lo tanto, es bastante difícil de ajustar ).

Para reducir el sesgo del LASSO, uno puede usar enfoques derivados de varios pasos, como el LASSO adaptativo (donde los coeficientes se penalizan diferencialmente en función de una estimación previa de un ajuste de regresión de mínimos cuadrados o crestas) o el LASSO relajado (una solución simple es hacer un ajuste de mínimos cuadrados de las variables seleccionadas por LASSO). Sin embargo, en comparación con el mejor subconjunto, LASSO tiende a seleccionar demasiadas variables. La mejor selección de subconjuntos es mejor, pero más difícil de ajustar.

L0proporciona una comparación exhaustiva del mejor subconjunto, LASSO y algunas variantes de LASSO, como el LASSO relajado, y afirman que el LASSO relajado fue el que produjo la mayor precisión de predicción del modelo en el rango más amplio de circunstancias, es decir, llegaron a una conclusión diferente a Bertsimas Pero la conclusión sobre cuál es la mejor depende en gran medida de lo que considere mejor (por ejemplo, la mayor precisión de predicción o la mejor para elegir variables relevantes y no incluir las irrelevantes; la regresión de cresta, por ejemplo, generalmente selecciona demasiadas variables, pero la precisión de predicción para casos con Sin embargo, las variables altamente colineales pueden ser realmente buenas).

Sin embargo, para un problema muy pequeño con 3 variables como las que describe, está claro que la mejor opción de subconjunto es la opción preferida.

Tom Wenseleers
fuente
1
¿Qué significa "mejor" en la frase "es mejor que el lazo"?
Matthew Drury
1
kλkkk
Edité mi respuesta un poco para dar más detalles ...
Tom Wenseleers
No creo que ninguna de las respuestas aborde el problema de la estabilidad. Al igual que la regresión por etapas y todos los subconjuntos posibles, lassoes notoriamente inestable. En otras palabras, si tuviera que iniciar todo el proceso, encontrará demasiada arbitrariedad en la lista de características seleccionadas.
Frank Harrell
Sí, las variables seleccionadas por LASSO pueden ser inestables, y esto es aún más el caso para la mejor regresión de subconjuntos, la regresión neta elástica es un poco mejor a este respecto, que tiende a incluir demasiadas variables, pero se seleccionan de una manera más forma estable, y puede dar una mejor precisión de predicción bajo alta colinealidad. Pero mucho depende de cuál sea el criterio más importante para su aplicación: la precisión de la predicción, la tasa de falsos positivos de incluir variables irrelevantes o la tasa de falsos negativos de no incluir variables altamente relevantes ...
Tom Wenseleers