Cuando determino mi lambda mediante validación cruzada, todos los coeficientes se vuelven cero. Pero tengo algunos indicios de la literatura de que algunos de los predictores definitivamente deberían afectar el resultado. ¿Es una basura elegir arbitrariamente lambda para que haya tanta escasez como uno desee?
Quiero seleccionar los 10 predictores más o menos de 135 para un modelo cox y, por desgracia, los tamaños de los efectos son pequeños.
Respuestas:
Si desea tener al menos un número definido de predictores con algún rango de valores definidos por la literatura, ¿por qué elegir el enfoque de LASSO puro para comenzar? Como sugirió @probabilityislogic, debería utilizar algunos antecedentes informativos sobre aquellas variables sobre las que tiene algún conocimiento. Si desea conservar algunas de las propiedades de LASSO para el resto de los predictores, tal vez podría usar un previo con una distribución exponencial doble para cada entrada, es decir, usar una densidad de la forma donde
fuente
Existe una buena manera de realizar LASSO pero utilizando un número fijo de predictores. Es la regresión de ángulo mínimo (LAR o LARS) descrita en el artículo de Efron. Durante el procedimiento iterativo crea una serie de modelos lineales, cada uno nuevo tiene un predictor más, por lo que puede seleccionar uno con el número deseado de predictores.
Otra forma es la regularización o . Según lo mencionado por Nestor usando los antecedentes apropiados, puede incorporar conocimientos previos en el modelo. La llamada máquina de vectores de relevancia por Tipping puede ser útil.l1 l2
fuente
No, eso no es defendible. El gran obstáculo que los procedimientos de selección de modelos están diseñados para superar es que la cardinalidad del verdadero soportees desconocido. (Aquí tenemos que es el coeficiente "verdadero"). Porquees desconocido, un procedimiento de selección de modelo tiene que buscar exhaustivamente en todos los modelos posibles; sin embargo, si supiéramos, podríamos comprobar los modelos , que es mucho menos.|S∗|=∣∣{j:β∗j≠0}∣∣ β∗ |S∗| 2p |S∗| (p|S∗|)
La teoría del lazo se basa en que el parámetro de regularización es lo suficientemente grande como para hacer que el modelo seleccionado sea lo suficientemente escaso. Podría ser que sus 10 características sean demasiadas o muy pocas, ya que no es trivial convertir un límite inferior en en un límite superior en.λ λ |S∗|
Sea nuestra estimación basada en datos para , y ponga . Entonces, ¿tal vez está tratando de asegurarse de que para que haya recuperado al menos las características relevantes? ¿O tal vez estás tratando de establecer ese para que sepas que todas las características que has encontrado valen la pena? En estos casos, su procedimiento estaría más justificado si tuviera información previa sobre los tamaños relativos de .β^ β∗ S^={j:β^j≠0} S∗⊆S^ S^⊆S∗ S∗
También, nota, puede dejar algunos coeficientes no sancionado al realizar lazo en, por ejemplo,
glmnet
.fuente