¿Por qué realmente funciona la contracción? ¿Qué tiene de especial 0?

Ya hay una publicación en este sitio que habla sobre el mismo problema: ¿Por qué funciona la contracción?

Pero, aunque las respuestas son populares, no creo que la esencia de la pregunta se aborde realmente. Está bastante claro que la introducción de algún sesgo en la estimación conlleva una reducción de la varianza y puede mejorar la calidad de la estimación. Sin embargo:

1) ¿Por qué el daño causado por la introducción de sesgo es menor en comparación con la ganancia de variación?

2) ¿Por qué siempre funciona? Por ejemplo en caso de regresión de cresta: el teorema de existencia

3) ¿Qué tiene de interesante 0 (el origen)? Claramente, podemos reducir el tamaño que deseemos (es decir, el estimador Stein ), pero ¿funcionará tan bien como el origen?

4) ¿Por qué varios esquemas de codificación universal prefieren un menor número de bits alrededor del origen? ¿Son estas hipótesis simplemente más probables?

Se esperan respuestas con referencias a teoremas probados o resultados establecidos.

regularization ridge-regression shrinkage Cagdas Ozgenc
fuente

@ KarolisKoncevičius, ¡gracias por arreglar los enlaces! Sin embargo, permítanme señalar que las ediciones de su idioma pueden no ser muy útiles, excepto la última. Los otros parecen agregar texto redundante y, por lo tanto, hacen que la publicación sea un poco menos legible.

Richard Hardy

3) "¿Qué tiene de interesante el origen?" ¿Cómo entiendes esta afirmación? Si tiene un factor de grupo (p. ej., país) y un factor individual (p. ej., ciudad), la contracción pondrá el promedio al nivel de país, y solo las desviaciones de nivel de ciudad con suficientes datos tendrán coeficiente), es decir, su modelo se empujará al nivel de grupo (país) promedio (empujando los coeficientes de nivel de ciudad a cero) ... y de manera similar para más niveles en jerarquías (y jerarquías múltiples)

seanv507

Respuestas:

1) ¿Por qué el daño causado por la introducción de sesgo es menor en comparación con la ganancia de variación?

No tiene que hacerlo, solo suele serlo. El valor de la compensación depende de la función de pérdida. Pero las cosas que nos importan en la vida real a menudo son similares al error al cuadrado (por ejemplo, nos preocupa más un gran error que dos errores de la mitad del tamaño).

Como contraejemplo, imagine que para las admisiones a la universidad reducimos un poco los puntajes del SAT de la gente hacia el SAT promedio para su demografía (como se define). Si se hace correctamente, esto reducirá la varianza y el error cuadrático medio de las estimaciones de (algún tipo de) habilidad de la persona al introducir sesgo. La mayoría de la gente en mi humilde opinión argumentaría que tal compensación es inaceptable.

2) ¿Por qué siempre funciona?

3) ¿Qué tiene de interesante 0 (el origen)? Claramente, podemos reducir el tamaño que deseemos (es decir, el estimador Stein), pero ¿funcionará tan bien como el origen?

Creo que esto se debe a que generalmente reducimos los coeficientes o efectuamos estimaciones. Hay razones para creer que la mayoría de los efectos no son grandes (ver, por ejemplo, la toma de Andrew Gelman ). Una forma de decirlo es que un mundo donde todo influye en todo con un fuerte efecto es un mundo violento e impredecible. Dado que nuestro mundo es lo suficientemente predecible como para permitirnos vivir vidas largas y construir civilizaciones semi-estables, se deduce que la mayoría de los efectos no son grandes.

Dado que la mayoría de los efectos no son grandes, es útil reducir erróneamente los pocos realmente grandes y al mismo tiempo reducir correctamente la carga de efectos insignificantes.

Creo que esto es solo una propiedad de nuestro mundo y que probablemente podría construir mundos autoconsistentes donde la contracción no sea práctica (muy probablemente al hacer que el error cuadrático medio sea una función de pérdida poco práctica). Simplemente no es el mundo en el que vivimos.

Por otro lado, cuando pensamos en la contracción como una distribución previa en el análisis bayesiano, hay casos en los que la contracción a 0 es activamente perjudicial en la práctica.

Un ejemplo es la escala de longitud en los procesos gaussianos (donde 0 es problemático), la recomendación en el manual de Stan es utilizar un previo que coloque un peso insignificante cerca de cero, es decir, "reducir" efectivamente los valores pequeños lejos de cero. Del mismo modo, los antecedentes recomendados para la dispersión en la distribución binomial negativa se reducen efectivamente de cero. Por último, pero no menos importante, cada vez que la distribución normal se parametriza con precisión (como en INLA), es útil utilizar gamma inversa u otras distribuciones anteriores que se reducen desde cero.

4) ¿Por qué varios esquemas de codificación universal prefieren un menor número de bits alrededor del origen? ¿Son estas hipótesis simplemente más probables?

$P(i) ≥ P(i + 1)$ $i$

Martin Modrák
fuente

¡La respuesta a 1) es realmente buena!

David

Claramente Andrew Gelman tenía en mente modelos estándar donde multiplicamos los coeficientes con entradas. Esto no necesariamente tiene que ser el caso. ¿Qué pasa si el coeficiente entra inversamente en el modelo? Entonces 0 explotará las cosas.

Cagdas Ozgenc

@CowboyTrader Sí, y hay casos de uso en el mundo real en los que 0 es problemático y nos reducimos (agregado a la respuesta). Por lo tanto, creo que respalda ligeramente el punto de que la reducción hacia cero es solo una heurística que funciona con frecuencia (en la práctica), pero no una verdad matemática fundamental.

Martin Modrák

Perdón por mi reacción inicial. Tu respuesta se está volviendo más significativa. Tenga en cuenta que la contracción funciona bajo otras funciones de pérdida, no solo bajo pérdida cuadrada. El verdadero problema que busco es por qué demonios siempre funciona. Para los parámetros de media / ubicación 0 parece ser un número mágico.

Cagdas Ozgenc

σ

$\sigma$

La cresta, el lazo y la red elástica son similares a los métodos bayesianos con antecedentes centrados en cero; véase, por ejemplo, Aprendizaje estadístico con escasez de Hastie, Tibshirani y Wainwright, sección 2.9 Lq Penalties and Bayes Estimates: "También hay una visión bayesiana de estos estimadores ... Esto significa que la estimación del lazo es el estimador Bayesiano MAP (máximo aposteriori) que utiliza un previo laplaciano ".

Una forma de responder a su pregunta ( what's so special about zero?) es que los efectos que estamos estimando son en promedio cero y tienden a ser pequeños (es decir, nuestros antecedentes deben centrarse en cero). La reducción de las estimaciones hacia cero es óptima en un sentido bayesiano, y se puede pensar a través de ese lente el lazo y las redes elásticas y elásticas.

Adrian
fuente

Reducir a cero no es nada especial (excepto que la ecuación es más simple porque simplemente multiplica el resultado con un factor particular). También puede reducir a cualquier otro punto. Cuanto más lejos esté ese punto del valor verdadero, menos bueno será el rendimiento de la reducción (pero en cualquier punto existe cierta cantidad de reducción que dará un cierto aumento del rendimiento ... al menos para las variables distribuidas gaussianas). Entonces, cuando un resultado generalmente está lejos de cero, reducirlo a cero solo proporcionará muy poca mejora.

Sextus Empiricus

@MartijnWeterings Claramente, poner un antecedente en la verdad misma será ideal (ojo de buey). Pero, ¿por qué reducir a 0 todavía mejora? Eso es lo que busco.

Cagdas Ozgenc

@CowboyTrader La reducción a cualquier valor mejora. Es por eso que también funciona para 0.

Sextus Empiricus

@MartijnWeterings Sí, pero los límites de la teoría del aprendizaje casi siempre se basan en el origen. Pusieron una bola / poliedro / etc centrada en el origen. ¿Es solo una prueba de conveniencia? La codificación de hipótesis MDL codifica enteros dando a 0 la longitud de código más corta? ¿Es una coincidencia?

Cagdas Ozgenc

Supongamos que realiza una regresión de cresta en el caso de que todas las variables sean realmente parte del modelo (que no es común en la práctica), entonces no funcionará tan bien. Tal vez esto es lo que Adrian quiso decir con "los efectos son cero en promedio, y tienden a ser pequeños" (no sé de los casos para los que eso es exactamente cierto. Pero hay muchos casos en el aprendizaje automático en los que alimentamos mucho parámetros, y donde probablemente no se necesiten muchos, entonces la mayoría de los efectos son cero o pequeños.)

Sextus Empiricus