¿Por qué funciona la contracción?

55

Para resolver problemas de selección de modelo, varios métodos (LASSO, regresión de cresta, etc.) reducirán los coeficientes de las variables predictoras hacia cero. Estoy buscando una explicación intuitiva de por qué esto mejora la capacidad predictiva. Si el verdadero efecto de la variable fue realmente muy grande, ¿por qué no reducir el parámetro da como resultado una predicción peor?

aspirante a estadístico
fuente

Respuestas:

48

En términos generales, hay tres fuentes diferentes de error de predicción:

  1. el sesgo de tu modelo
  2. la varianza de tu modelo
  3. varianza inexplicable

No podemos hacer nada con respecto al punto 3 (excepto intentar estimar la varianza inexplicada e incorporarla en nuestras densidades predictivas e intervalos de predicción). Esto nos deja con 1 y 2.

Si realmente tiene el modelo "correcto", entonces, digamos, las estimaciones de los parámetros OLS serán imparciales y tendrán una variación mínima entre todos los estimadores imparciales (lineales) (son AZULES). Las predicciones de un modelo OLS serán mejores predicciones lineales insesgadas (BLUP). Eso suena bien.

Sin embargo, resulta que aunque tenemos predicciones imparciales y una varianza mínima entre todas las predicciones imparciales, la varianza aún puede ser bastante grande. Más importante aún, a veces podemos introducir un "pequeño" sesgo y al mismo tiempo ahorrar "mucha" variación, y al obtener el equilibrio justo, podemos obtener un error de predicción más bajo con un modelo sesgado (variación más baja) que con un sesgo imparcial ( mayor varianza) uno. Esto se llama el "equilibrio de sesgo-varianza", y esta pregunta y sus respuestas son esclarecedoras: ¿ cuándo es preferible un estimador sesgado a uno imparcial?

Y la regularización como el lazo, la regresión de la cresta, la red elástica, etc., hacen exactamente eso. Tiran del modelo hacia cero. (Los enfoques bayesianos son similares: llevan el modelo hacia los anteriores). Por lo tanto, los modelos regularizados estarán sesgados en comparación con los modelos no regularizados, pero también tienen una varianza más baja. Si elige su regularización correcta, el resultado es una predicción con un error menor.

Si busca "regularización de compensación de variación de sesgo" o similar, obtendrá algo de reflexión. Esta presentación, por ejemplo, es útil.

EDITAR: la ameba señala con razón que estoy diciendo a mano por qué exactamente la regularización produce una menor varianza de modelos y predicciones. Considere un modelo de lazo con un gran parámetro de regularización . Si , las estimaciones de sus parámetros de lazo se reducirán a cero. Un valor de parámetro fijo de cero tiene varianza cero. (Esto no es del todo correcto, ya que el valor umbral de más allá del cual sus parámetros se reducirán a cero depende de sus datos y su modelo. Pero dado el modelo y los datos, puede encontrar unλλλλtal que el modelo es el modelo cero. Siempre mantenga sus cuantificadores rectos.) Sin embargo, el modelo cero también tendrá un sesgo gigante. No le importan las observaciones reales, después de todo.

Y lo mismo se aplica a los valores no tan extremos de sus parámetros de regularización: los valores pequeños producirán las estimaciones de parámetros no regularizadas, que serán menos sesgadas (imparciales si tiene el modelo "correcto"), pero tienen valores más altos. diferencia. Ellos "saltarán", siguiendo sus observaciones reales. Los valores más altos de su regularización "restringirán" sus estimaciones de parámetros cada vez más. Es por eso que los métodos tienen nombres como "lazo" o "red elástica": restringen la libertad de sus parámetros para flotar y seguir los datos.λ

(Estoy escribiendo un pequeño documento sobre esto, que espero sea bastante accesible. Agregaré un enlace una vez que esté disponible).

S. Kolassa - Restablece a Monica
fuente
44
Parece que la pieza crucial del rompecabezas es: ¿por qué los métodos de contracción disminuyen la varianza? (Que introducen algún sesgo es más o menos obvio). Simplemente dices que lo hacen; ¿Puedes proporcionar alguna intuición para eso?
ameba dice Reinstate Monica
2
@Stephan Kolassa Entonces, agregar el término de penalización que representa el tamaño de los coeficientes agrega un poco de sesgo pero reduce la variabilidad porque penaliza los coeficientes grandes, que generalmente tendrán más variabilidad que los coeficientes más pequeños. ¿Es eso correcto? Entonces, en última instancia, no estamos tan preocupados por obtener el valor 'correcto' para un coeficiente particular, ¿solo estamos interesados ​​en la capacidad predictiva general del modelo?
aspirante
2
@aspiringstatistician: su segunda oración está justo en la marca. (Recordemos a George Box sobre modelos "incorrectos pero útiles"). No me preocuparía tanto si las estimaciones de parámetros grandes se reducen más que las pequeñas. Primero, esto dependerá de la estandarización. En segundo lugar, si sus valores de parámetros grandes están bien estimados (es decir, con un error bajo), no necesariamente se reducirán mucho. La regularización "prefiere" reducir aquellos parámetros que están mal definidos, es decir, que tienen una alta varianza.
S. Kolassa - Restablece a Monica el
3
+1. Buena suerte con el papel! @aspiringstatistician: Muy buena observación acerca de que la contracción no se preocupa por obtener el modelo correcto; esto es exactamente correcto (y vale la pena considerarlo): el modelo correctamente especificado puede tener una capacidad predictiva peor que la regularizada y "menos verdadera" (para más información, consulte el Apéndice en la página 307 de este documento ).
ameba dice Reinstate Monica
77
+1. Solo quería agregar que, si bien la pregunta era sobre la intuición detrás de los modelos regularizados, se siente un poco incompleto sin mencionar la derivación bayesiana de estos modelos. Por ejemplo, al comparar la regresión de cresta con el MLE simple, en la mayoría de las aplicaciones me parece natural pensar en el efecto que se extrae de una distribución normal, en oposición a una distribución uniforme (inadecuada). Entonces, al ver estas técnicas como casos especiales de estimación de MAP, queda claro por qué uno elegiría la regresión de cresta.
jlimahaverford
10

Solo para agregar algo a la excelente respuesta de @ Kolassa, toda la cuestión de las estimaciones de contracción está ligada a la paradoja de Stein . Para procesos multivariados con , el vector de los promedios de muestra no es admisible. En otras palabras, para algún valor de parámetro, hay un estimador diferente con menor riesgo esperado. Stein propuso un estimador de contracción como ejemplo. Así que estamos lidiando con la maldición de la dimensionalidad, ya que la contracción no te ayuda cuando tienes solo 1 o 2 variables independientes.p3

Lea esta respuesta para más. Aparentemente, la paradoja de Stein está relacionada con el conocido teorema de que un proceso de movimiento Browiano en 3 o más dimensiones no es recurrente (deambula por todo el lugar sin volver al origen), mientras que los brownianos de 1 y 2 dimensiones son recurrentes.

La paradoja de Stein se mantiene independientemente de a qué se encoja, aunque en la práctica, funciona mejor si se encoge hacia los valores de los parámetros verdaderos. Esto es lo que hacen los bayesianos. Piensan que saben dónde está el verdadero parámetro y se encogen hacia él. Luego afirman que Stein valida su existencia.

Se llama paradoja precisamente porque desafía nuestra intuición. Sin embargo, si piensa en el movimiento browniano, la única forma de hacer que un movimiento browniano 3D regrese al origen sería imponer una penalización de amortiguación en los escalones. Un estimador de contracción también impone una especie de amortiguador en las estimaciones (reduce la varianza), razón por la cual funciona.

Placidia
fuente
¿Tiene una referencia para la conexión entre la paradoja de Stein y los procesos brownianos?
kjetil b halvorsen
1
Sigue mi enlace en "Leer esta respuesta para más". Hay un enlace en esa respuesta a un documento que hace la conexión.
Placidia
los estimadores de bayes son admisibles por el teorema de clase completo: no tiene nada que ver con el estimador JS directamente. Sin embargo, el resultado de que JS domina la media muestral hizo que las personas estuvieran más interesadas en estudiar estimadores de bayes. (Me opongo a la afirmación de que los bayesianos "afirman que Stein valida su existencia")
User795305