En términos generales, hay tres fuentes diferentes de error de predicción:
- el sesgo de tu modelo
- la varianza de tu modelo
- varianza inexplicable
No podemos hacer nada con respecto al punto 3 (excepto intentar estimar la varianza inexplicada e incorporarla en nuestras densidades predictivas e intervalos de predicción). Esto nos deja con 1 y 2.
Si realmente tiene el modelo "correcto", entonces, digamos, las estimaciones de los parámetros OLS serán imparciales y tendrán una variación mínima entre todos los estimadores imparciales (lineales) (son AZULES). Las predicciones de un modelo OLS serán mejores predicciones lineales insesgadas (BLUP). Eso suena bien.
Sin embargo, resulta que aunque tenemos predicciones imparciales y una varianza mínima entre todas las predicciones imparciales, la varianza aún puede ser bastante grande. Más importante aún, a veces podemos introducir un "pequeño" sesgo y al mismo tiempo ahorrar "mucha" variación, y al obtener el equilibrio justo, podemos obtener un error de predicción más bajo con un modelo sesgado (variación más baja) que con un sesgo imparcial ( mayor varianza) uno. Esto se llama el "equilibrio de sesgo-varianza", y esta pregunta y sus respuestas son esclarecedoras: ¿ cuándo es preferible un estimador sesgado a uno imparcial?
Y la regularización como el lazo, la regresión de la cresta, la red elástica, etc., hacen exactamente eso. Tiran del modelo hacia cero. (Los enfoques bayesianos son similares: llevan el modelo hacia los anteriores). Por lo tanto, los modelos regularizados estarán sesgados en comparación con los modelos no regularizados, pero también tienen una varianza más baja. Si elige su regularización correcta, el resultado es una predicción con un error menor.
Si busca "regularización de compensación de variación de sesgo" o similar, obtendrá algo de reflexión. Esta presentación, por ejemplo, es útil.
EDITAR: la ameba señala con razón que estoy diciendo a mano por qué exactamente la regularización produce una menor varianza de modelos y predicciones. Considere un modelo de lazo con un gran parámetro de regularización . Si , las estimaciones de sus parámetros de lazo se reducirán a cero. Un valor de parámetro fijo de cero tiene varianza cero. (Esto no es del todo correcto, ya que el valor umbral de más allá del cual sus parámetros se reducirán a cero depende de sus datos y su modelo. Pero dado el modelo y los datos, puede encontrar unλλ→∞λλtal que el modelo es el modelo cero. Siempre mantenga sus cuantificadores rectos.) Sin embargo, el modelo cero también tendrá un sesgo gigante. No le importan las observaciones reales, después de todo.
Y lo mismo se aplica a los valores no tan extremos de sus parámetros de regularización: los valores pequeños producirán las estimaciones de parámetros no regularizadas, que serán menos sesgadas (imparciales si tiene el modelo "correcto"), pero tienen valores más altos. diferencia. Ellos "saltarán", siguiendo sus observaciones reales. Los valores más altos de su regularización "restringirán" sus estimaciones de parámetros cada vez más. Es por eso que los métodos tienen nombres como "lazo" o "red elástica": restringen la libertad de sus parámetros para flotar y seguir los datos.λ
(Estoy escribiendo un pequeño documento sobre esto, que espero sea bastante accesible. Agregaré un enlace una vez que esté disponible).
Solo para agregar algo a la excelente respuesta de @ Kolassa, toda la cuestión de las estimaciones de contracción está ligada a la paradoja de Stein . Para procesos multivariados con , el vector de los promedios de muestra no es admisible. En otras palabras, para algún valor de parámetro, hay un estimador diferente con menor riesgo esperado. Stein propuso un estimador de contracción como ejemplo. Así que estamos lidiando con la maldición de la dimensionalidad, ya que la contracción no te ayuda cuando tienes solo 1 o 2 variables independientes.p≥3
Lea esta respuesta para más. Aparentemente, la paradoja de Stein está relacionada con el conocido teorema de que un proceso de movimiento Browiano en 3 o más dimensiones no es recurrente (deambula por todo el lugar sin volver al origen), mientras que los brownianos de 1 y 2 dimensiones son recurrentes.
La paradoja de Stein se mantiene independientemente de a qué se encoja, aunque en la práctica, funciona mejor si se encoge hacia los valores de los parámetros verdaderos. Esto es lo que hacen los bayesianos. Piensan que saben dónde está el verdadero parámetro y se encogen hacia él. Luego afirman que Stein valida su existencia.
Se llama paradoja precisamente porque desafía nuestra intuición. Sin embargo, si piensa en el movimiento browniano, la única forma de hacer que un movimiento browniano 3D regrese al origen sería imponer una penalización de amortiguación en los escalones. Un estimador de contracción también impone una especie de amortiguador en las estimaciones (reduce la varianza), razón por la cual funciona.
fuente