Pregunta: ¿Cuáles son las ventajas / desventajas de usar uno antes que otro para la selección de variables?
Supongamos que tengo la probabilidad: donde puedo poner cualquiera de las anteriores: w i ∼ π δ 0 + ( 1 - π ) N ( 0 , 100 )
o:
w i ∼ exp ( - λ | w i | )
Puse para enfatizar que la mayoría de los pesos son cero y una gamma antes de λ para elegir el parámetro 'regularización'.
Sin embargo, mi profesor sigue insistiendo en que la versión del lazo 'reduce' los coeficientes y no está haciendo la selección de variables adecuada, es decir, existe una sobrecontracción incluso de los parámetros relevantes.
bayesian
feature-selection
sachinruk
fuente
fuente
Respuestas:
Ambos métodos (LASSO vs. punta y losa) se pueden interpretar como problemas de estimación bayesianos en los que está especificando diferentes parámetros. Una de las principales diferencias es que el método LASSO no pone ninguna masa de punto en cero para el previo (es decir, los parámetros son casi seguramente distintos de cero a priori), mientras que la punta y la losa ponen una masa de punto sustancial en cero
En mi humilde opinión, la principal ventaja del método de punta y losa es que se adapta bien a problemas en los que el número de parámetros es mayor que el número de puntos de datos , y desea eliminar por completo un número sustancial de parámetros del modelo Debido a que este método pone una gran masa de punto en cero en el anterior, producirá estimaciones posteriores que tienden a involucrar solo una pequeña proporción de los parámetros, con suerte evitando el ajuste excesivo de los datos.
Cuando su profesor le dice que el primero no está realizando un método de selección variable, lo que probablemente quiere decir es esto. Bajo LASSO, cada uno de los parámetros es casi seguro distinto de cero a priori (es decir, todos están en el modelo). Dado que la probabilidad también es distinta de cero sobre el soporte de parámetros, esto también significará que cada una es casi seguro que no sea cero a priori (es decir, todas están en el modelo). Ahora, puede complementar esto con una prueba de hipótesis, y descartar parámetros del modelo de esa manera, pero eso sería una prueba adicional impuesta sobre el modelo bayesiano.
Los resultados de la estimación bayesiana reflejarán una contribución de los datos y una contribución de lo anterior. Naturalmente, una distribución previa que se concentra más estrechamente alrededor de cero (como la punta y la losa) de hecho "encogerá" los estimadores de parámetros resultantes, en relación con un previo que esté menos concentrado (como el LASSO). Por supuesto, esta "reducción" es simplemente el efecto de la información previa que ha especificado. La forma del LASSO anterior significa que está reduciendo todas las estimaciones de parámetros hacia la media, en relación con un anterior más plano.
fuente