Ya hay una publicación en este sitio que habla sobre el mismo problema: ¿Por qué funciona la contracción?
Pero, aunque las respuestas son populares, no creo que la esencia de la pregunta se aborde realmente. Está bastante claro que la introducción de algún sesgo en la estimación conlleva una reducción de la varianza y puede mejorar la calidad de la estimación. Sin embargo:
1) ¿Por qué el daño causado por la introducción de sesgo es menor en comparación con la ganancia de variación?
2) ¿Por qué siempre funciona? Por ejemplo en caso de regresión de cresta: el teorema de existencia
3) ¿Qué tiene de interesante 0 (el origen)? Claramente, podemos reducir el tamaño que deseemos (es decir, el estimador Stein ), pero ¿funcionará tan bien como el origen?
4) ¿Por qué varios esquemas de codificación universal prefieren un menor número de bits alrededor del origen? ¿Son estas hipótesis simplemente más probables?
Se esperan respuestas con referencias a teoremas probados o resultados establecidos.
fuente
Respuestas:
No tiene que hacerlo, solo suele serlo. El valor de la compensación depende de la función de pérdida. Pero las cosas que nos importan en la vida real a menudo son similares al error al cuadrado (por ejemplo, nos preocupa más un gran error que dos errores de la mitad del tamaño).
Como contraejemplo, imagine que para las admisiones a la universidad reducimos un poco los puntajes del SAT de la gente hacia el SAT promedio para su demografía (como se define). Si se hace correctamente, esto reducirá la varianza y el error cuadrático medio de las estimaciones de (algún tipo de) habilidad de la persona al introducir sesgo. La mayoría de la gente en mi humilde opinión argumentaría que tal compensación es inaceptable.
Creo que esto se debe a que generalmente reducimos los coeficientes o efectuamos estimaciones. Hay razones para creer que la mayoría de los efectos no son grandes (ver, por ejemplo, la toma de Andrew Gelman ). Una forma de decirlo es que un mundo donde todo influye en todo con un fuerte efecto es un mundo violento e impredecible. Dado que nuestro mundo es lo suficientemente predecible como para permitirnos vivir vidas largas y construir civilizaciones semi-estables, se deduce que la mayoría de los efectos no son grandes.
Dado que la mayoría de los efectos no son grandes, es útil reducir erróneamente los pocos realmente grandes y al mismo tiempo reducir correctamente la carga de efectos insignificantes.
Creo que esto es solo una propiedad de nuestro mundo y que probablemente podría construir mundos autoconsistentes donde la contracción no sea práctica (muy probablemente al hacer que el error cuadrático medio sea una función de pérdida poco práctica). Simplemente no es el mundo en el que vivimos.
Por otro lado, cuando pensamos en la contracción como una distribución previa en el análisis bayesiano, hay casos en los que la contracción a 0 es activamente perjudicial en la práctica.
Un ejemplo es la escala de longitud en los procesos gaussianos (donde 0 es problemático), la recomendación en el manual de Stan es utilizar un previo que coloque un peso insignificante cerca de cero, es decir, "reducir" efectivamente los valores pequeños lejos de cero. Del mismo modo, los antecedentes recomendados para la dispersión en la distribución binomial negativa se reducen efectivamente de cero. Por último, pero no menos importante, cada vez que la distribución normal se parametriza con precisión (como en INLA), es útil utilizar gamma inversa u otras distribuciones anteriores que se reducen desde cero.
fuente
La cresta, el lazo y la red elástica son similares a los métodos bayesianos con antecedentes centrados en cero; véase, por ejemplo, Aprendizaje estadístico con escasez de Hastie, Tibshirani y Wainwright, sección
2.9 Lq Penalties and Bayes Estimates
: "También hay una visión bayesiana de estos estimadores ... Esto significa que la estimación del lazo es el estimador Bayesiano MAP (máximo aposteriori) que utiliza un previo laplaciano ".Una forma de responder a su pregunta (
what's so special about zero?
) es que los efectos que estamos estimando son en promedio cero y tienden a ser pequeños (es decir, nuestros antecedentes deben centrarse en cero). La reducción de las estimaciones hacia cero es óptima en un sentido bayesiano, y se puede pensar a través de ese lente el lazo y las redes elásticas y elásticas.fuente