¿Qué tan defendible es elegir en un modelo LASSO para que produzca el número de predictores distintos de cero que uno desea?

11

Cuando determino mi lambda mediante validación cruzada, todos los coeficientes se vuelven cero. Pero tengo algunos indicios de la literatura de que algunos de los predictores definitivamente deberían afectar el resultado. ¿Es una basura elegir arbitrariamente lambda para que haya tanta escasez como uno desee?

Quiero seleccionar los 10 predictores más o menos de 135 para un modelo cox y, por desgracia, los tamaños de los efectos son pequeños.

miura
fuente
66
Parece que deberías estar usando una información previa, ya que tienes información no basada en datos.
probabilityislogic
En el fondo, siento que eso sería correcto, desafortunadamente me falta por completo la destreza estadística de incluso ahora por dónde empezar a hacer esto.
miura
1
Parece confundir dos cosas diferentes: (1) Si la literatura le dice que use predictores específicos, entonces inclúyalos en todos los modelos. (2) En cambio, parece reinterpretar esto como una indicación de que debe seleccionar un cierto número de muchos predictores, independientemente de si incluyen los específicos mencionados en la literatura. ¿Podría aclarar lo que realmente está tratando de lograr?
whuber

Respuestas:

4

Si desea tener al menos un número definido de predictores con algún rango de valores definidos por la literatura, ¿por qué elegir el enfoque de LASSO puro para comenzar? Como sugirió @probabilityislogic, debería utilizar algunos antecedentes informativos sobre aquellas variables sobre las que tiene algún conocimiento. Si desea conservar algunas de las propiedades de LASSO para el resto de los predictores, tal vez podría usar un previo con una distribución exponencial doble para cada entrada, es decir, usar una densidad de la forma donde

p(βi)=λ2exp(λ|βi|),
λes el multiplicador lagrange correspondiente a la solución de LASSO puro. Esta última afirmación proviene del hecho de que, en ausencia de las variables con los antecedentes informativos, esta es otra forma de derivar el LASSO (maximizando el supuesto posterior dado los supuestos de normalidad para los residuos).
Néstor
fuente
3

Existe una buena manera de realizar LASSO pero utilizando un número fijo de predictores. Es la regresión de ángulo mínimo (LAR o LARS) descrita en el artículo de Efron. Durante el procedimiento iterativo crea una serie de modelos lineales, cada uno nuevo tiene un predictor más, por lo que puede seleccionar uno con el número deseado de predictores.

Otra forma es la regularización o . Según lo mencionado por Nestor usando los antecedentes apropiados, puede incorporar conocimientos previos en el modelo. La llamada máquina de vectores de relevancia por Tipping puede ser útil.l1l2

Alexey Zaytsev
fuente
3
Si bien LARS y el lazo están estrechamente relacionados, para un número fijo de predictores, es posible que ni siquiera incluyan las mismas variables. Se podría elegir un valor de penalización para el lazo que proporcione el número deseado de predictores, ¡pero la elección en ninguno de los casos será única! Por lo tanto, el OP aún no ha proporcionado un procedimiento bien definido, que es parte del problema. Para LARS, existe el gran beneficio de que los valores de penalización que producen un cierto número de predictores forman un intervalo, por lo que elegir un punto final (¿cuál?) O un punto medio o algún otro criterio es algo más fácil.
cardenal
1
Sí, es cierto que LARS y LASSO no son idénticos, pero se puede introducir una modificación simple de LARS sugerida por los autores en el artículo original para obtener soluciones LASSO utilizando la técnica basada en LARS.
Alexey Zaytsev
Sí, Alexey, esto es verdad. Supongo que mi comentario gira en torno a por qué mudarse a LARS en primer lugar. Por lo general, uno podría elegir fácilmente un valor del parámetro de penalización para el lazo que produce el número deseado de predictores. El punto principal que no se ha abordado es cómo se debe hacer una selección única y las consecuencias que podrían tener en el caso del OP. :)
cardenal
2

No, eso no es defendible. El gran obstáculo que los procedimientos de selección de modelos están diseñados para superar es que la cardinalidad del verdadero soportees desconocido. (Aquí tenemos que es el coeficiente "verdadero"). Porquees desconocido, un procedimiento de selección de modelo tiene que buscar exhaustivamente en todos los modelos posibles; sin embargo, si supiéramos, podríamos comprobar los modelos , que es mucho menos.|S|=|{j:βj0}|β|S|2p|S|(p|S|)

La teoría del lazo se basa en que el parámetro de regularización es lo suficientemente grande como para hacer que el modelo seleccionado sea lo suficientemente escaso. Podría ser que sus 10 características sean demasiadas o muy pocas, ya que no es trivial convertir un límite inferior en en un límite superior en.λλ|S|

Sea nuestra estimación basada en datos para , y ponga . Entonces, ¿tal vez está tratando de asegurarse de que para que haya recuperado al menos las características relevantes? ¿O tal vez estás tratando de establecer ese para que sepas que todas las características que has encontrado valen la pena? En estos casos, su procedimiento estaría más justificado si tuviera información previa sobre los tamaños relativos de .β^βS^={j:β^j0}SS^S^SS

También, nota, puede dejar algunos coeficientes no sancionado al realizar lazo en, por ejemplo, glmnet.

usuario795305
fuente