Punta y losa bayesianas versus métodos penalizados

11

Estoy leyendo las diapositivas de Steven Scott sobre el paquete BSTS R (Puede encontrarlas aquí: diapositivas ).

En algún momento, cuando habla de incluir muchos regresores en el modelo de serie de tiempo estructural, introduce los picos y las losas anteriores de los coeficientes de regresión y dice que son mejores en comparación con los métodos penalizados.

Scott dice, refiriéndose a un ejemplo de un conjunto de datos con 100 predictores:

  • Los métodos penalizados toman una sola decisión sobre qué variables se incluyen / excluyen, lo que significa que deciden un subconjunto de predictores, es decir, un modelo entre los posibles.2100
  • "Los anteriores de lazo (y relacionados) no son escasos, inducen escasez en el modo pero no en la distribución posterior"

En este punto, presenta los antecedentes de Spike y Slab.

Creo que tengo la intuición, pero quiero estar seguro de eso:

  • ¿Son mejores en el sentido de que básicamente utilizan un enfoque de fuerza bruta que prueba cada posible subconjunto de regresores para incluir?
  • ¿Es el inconveniente el tiempo de cálculo al hacerlo?
  • ¿Qué crees que quiere decir cuando dice "Lazo (y relacionado) ... pero no en la distribución posterior"?
Tommaso Guerrini
fuente

Respuestas:

10

Contestaré su tercera pregunta primero y abordaré las otras dos más tarde.

  1. ¿Qué crees que quiere decir cuando dice "Lazo (y relacionado) ... pero no en la distribución posterior"?

Esta figura de sus diapositivas muestra lo que quiere decir. Expresar el regularizador de lazo como una distribución previa significa que su distribución previa tomará la forma de una distribución laplaciana o doble exponencial . Esta distribución tiene un pico característico no uniforme en la media, que se establece en 0 para lograr un efecto de regularización disperso. Para obtener un resultado regular de lazo directamente, debe tomar el modo de su distribución posterior.

prueba

En la figura, la línea punteada azul representa la distribución previa laplaciana. La distribución posterior, en negro sólido, tiene su modo en 0 a la izquierda con una probabilidad débil, mientras que el modo no es cero a la derecha con una probabilidad fuerte.

Sin embargo, la distribución posterior completa no es escasa, porque si toma muestras de ella, rara vez obtendrá un valor cercano a 0, y de hecho, debido a que es una distribución continua, nunca obtendrá exactamente 0.

Para lograr la escasez con un enfoque de lazo, generalmente necesita establecer un umbral de corte en el modo posterior. El caso ideal es si su modo posterior es igual a 0, pero podría relajar esto y eliminar su variable si su modo posterior es inferior a 0.2 después de tomar el valor absoluto.

La realización de esta dispersión bajo lazo da un conjunto particular de regresores eliminados y retenidos, que es la "decisión única" sobre qué regresores están incluidos o excluidos.

Un enfoque totalmente bayesiano para la selección de variables, el pico y la losa anteriores, retiene la incertidumbre acerca de qué variables deben incluirse o excluirse en todo el modelo.

Entonces, para abordar su primera pregunta:

  1. ¿Son mejores en el sentido de que básicamente utilizan un enfoque de fuerza bruta que prueba cada posible subconjunto de regresores para incluir?

Esto es un malentendido, ya que ninguno de los métodos prueba todos los subconjuntos posibles de regresores para incluir.

  1. ¿Es el inconveniente el tiempo de cálculo al hacerlo?

Esto también es un malentendido, ya que el tiempo de cálculo no está dominado por la prueba de fuerza bruta de cada posible subconjunto de regresores.

Para aclarar el punto de Scott, dados algunos datos, si utiliza un enfoque de dispersión de probabilidad penalizado, obtendrá exactamente un conjunto de regresores incluidos y excluidos. Pero si utiliza un enfoque de espaciamiento de espiga y losa, tiene una distribución posterior completa para cada regresor, cada uno con una probabilidad separada de ser incluido o excluido. Algunos regresores pueden tener un 70% de posibilidades de ser incluidos, otros un 25% de posibilidades. Esto puede ser preferible en muchas aplicaciones, porque dado un conjunto de datos único, aún deberíamos tener incertidumbre sobre qué regresores son importantes o no.

Intuitivamente, una espiga y una losa antes representan mejor el posible espacio de regresores incluidos / excluidos en comparación con un enfoque de probabilidad penalizado como el lazo.

esteta
fuente
2
¡Muchas gracias! Mi comprensión de las diapositivas de Scott fue tan superficial y parcialmente fuera de lugar que lo dejó claro.
Tommaso Guerrini