Lazo bayesiano vs espiga y losa

Pregunta: ¿Cuáles son las ventajas / desventajas de usar uno antes que otro para la selección de variables?

Supongamos que tengo la probabilidad: donde puedo poner cualquiera de las anteriores:

y \sim N (X w, σ^{2} I)

$y\sim\mathcal{N}(Xw,\sigma^2I)$

w_{i} \sim π δ_{0} + (1 - π) N (0, 100) π = 0.9,

$w_i\sim \pi\delta_0+(1-\pi)\mathcal{N}(0,100)\\ \pi=0.9\,,$

w_{i} \sim \exp (- λ | w_{i} |) λ \sim Γ (1, 1) .

$w_i\sim \exp(-\lambda|w_i|)\\ \lambda \sim \Gamma(1,1)\,.$

Puse para enfatizar que la mayoría de los pesos son cero y una gamma antes de para elegir el parámetro 'regularización'. $\pi=0.9$ $\lambda$

Sin embargo, mi profesor sigue insistiendo en que la versión del lazo 'reduce' los coeficientes y no está haciendo la selección de variables adecuada, es decir, existe una sobrecontracción incluso de los parámetros relevantes.

$\frac{1}{|w_i|}$

bayesian feature-selection sachinruk
fuente

Su profesor tiene razón en que está reduciendo los parámetros relevantes, pero ¿y qué? Solo los reduce en la medida en que no contribuyen significativamente a reducir el error. Y por qué se centra en hacer la selección de variables adecuado .. ¿No debería ser el foco en la reducción (de prueba) de error

seanv507

Para la mayoría de los problemas, sí, estaría de acuerdo. Sin embargo, para algunos problemas (p. Ej., Detección de cáncer con expresión génica) es muy importante encontrar qué características son los factores contribuyentes. PD: Desde entonces me mudé de mi postdoc ya que es un imbécil. Machine learning ftw !!!

sachinruk

Spike and Slab resulta ser el estándar de oro en la selección de variables y también prefiero trabajar con LASSO. @Sachin_ruk: la espiga y la losa anterior también se pueden implementar utilizando Variational Bayes ...

Sandipan Karmakar

@SandipanKarmakar podría publicar un enlace que se refiera a la espiga y la losa con Variational Bayes.

sachinruk

Su pregunta combina problemas de modelado [¿qué anterior?] E implementación [Bayes variacional]. Deben procesarse por separado.

Xi'an

Respuestas:

Ambos métodos (LASSO vs. punta y losa) se pueden interpretar como problemas de estimación bayesianos en los que está especificando diferentes parámetros. Una de las principales diferencias es que el método LASSO no pone ninguna masa de punto en cero para el previo (es decir, los parámetros son casi seguramente distintos de cero a priori), mientras que la punta y la losa ponen una masa de punto sustancial en cero

En mi humilde opinión, la principal ventaja del método de punta y losa es que se adapta bien a problemas en los que el número de parámetros es mayor que el número de puntos de datos , y desea eliminar por completo un número sustancial de parámetros del modelo Debido a que este método pone una gran masa de punto en cero en el anterior, producirá estimaciones posteriores que tienden a involucrar solo una pequeña proporción de los parámetros, con suerte evitando el ajuste excesivo de los datos.

Cuando su profesor le dice que el primero no está realizando un método de selección variable, lo que probablemente quiere decir es esto. Bajo LASSO, cada uno de los parámetros es casi seguro distinto de cero a priori (es decir, todos están en el modelo). Dado que la probabilidad también es distinta de cero sobre el soporte de parámetros, esto también significará que cada una es casi seguro que no sea cero a priori (es decir, todas están en el modelo). Ahora, puede complementar esto con una prueba de hipótesis, y descartar parámetros del modelo de esa manera, pero eso sería una prueba adicional impuesta sobre el modelo bayesiano.

Los resultados de la estimación bayesiana reflejarán una contribución de los datos y una contribución de lo anterior. Naturalmente, una distribución previa que se concentra más estrechamente alrededor de cero (como la punta y la losa) de hecho "encogerá" los estimadores de parámetros resultantes, en relación con un previo que esté menos concentrado (como el LASSO). Por supuesto, esta "reducción" es simplemente el efecto de la información previa que ha especificado. La forma del LASSO anterior significa que está reduciendo todas las estimaciones de parámetros hacia la media, en relación con un anterior más plano.

Ben - Restablece a Monica
fuente