¿Por qué la regresión de cresta se llama "cresta", por qué es necesaria y qué sucede cuando va al infinito?
71
Estimación del coeficiente de regresión de cresta son los valores que minimizan laβ^R
RSS+λ∑j=1pβ2j.
Mis preguntas son:
Si , vemos que la expresión anterior se reduce al RSS habitual. ¿Qué pasa si ? No entiendo la explicación del libro de texto del comportamiento de los coeficientes.λ=0λ→∞
Para ayudar a comprender el concepto detrás de un término en particular, ¿por qué el término se llama Regresión RIDGE? (¿Por qué cresta?) ¿Y qué podría haber estado mal con la regresión habitual / común que existe la necesidad de introducir un nuevo concepto llamado regresión de cresta?
Como pides ideas , voy a adoptar un enfoque bastante intuitivo en lugar de una táctica más matemática:
Siguiendo los conceptos en mi respuesta aquí , podemos formular una regresión de cresta como una regresión con datos ficticios agregando (en su formulación) observaciones, donde , y para . Si escribe el nuevo RSS para este conjunto de datos ampliado, verá que las observaciones adicionales agregan un término de la forma , entonces el nuevo RSS es el original - y minimizar el RSS en este nuevo conjunto de datos ampliado es lo mismo que minimizar el criterio de regresión de cresta.pyn+j=0xj,n+j=λ−−√xi,n+j=0i≠j(0−λ−−√βj)2=λβ2jRSS+λ∑pj=1β2j
Entonces, ¿qué podemos ver aquí? A medida que aumenta, las líneas adicionales tienen un componente que aumenta, por lo que la influencia de estos puntos también aumenta. Tiran del hiperplano ajustado hacia ellos. Luego, como y los componentes correspondientes de las se disparan al infinito, todos los coeficientes involucrados se "aplanan" a .λxλx0
Es decir, como , la penalización dominará la minimización, por lo que los s irán a cero. Si la intercepción no se penaliza (el caso habitual), el modelo se reduce cada vez más hacia la media de la respuesta.λ→∞β
Daré una idea intuitiva de por qué estamos hablando primero de crestas (lo que también sugiere por qué es necesario), luego abordaré un poco de historia. El primero está adaptado de mi respuesta aquí :
Si hay multicolinealidad, se obtiene una "cresta" en la función de probabilidad (la probabilidad es una función de los 's). Esto a su vez produce un largo "valle" en el RSS (ya que RSS = ).β−2logL
La regresión de la cresta "arregla" la cresta: agrega una penalización que convierte la cresta en un pico agradable en el espacio de probabilidad, equivalente a una depresión agradable en el criterio que estamos minimizando:
La historia real detrás del nombre es un poco más complicada. En 1959, AE Hoerl [1] introdujo el análisis de cresta para la metodología de superficie de respuesta, y muy pronto [2] se adaptó para tratar la multicolinealidad en la regresión ('regresión de cresta'). Véase, por ejemplo, la discusión de RW Hoerl en [3], donde describe el uso de Hoerl (AE no RW) de los contornos de la superficie de respuesta * en la identificación de dónde dirigirse para encontrar los óptimos locales cresta'). En problemas mal condicionados, surge el problema de una cresta muy larga, y las ideas y la metodología del análisis de cresta se adaptan al problema relacionado con la probabilidad / RSS en la regresión, produciendo regresión de cresta.
* Aquí se pueden ver ejemplos de gráficos de contorno de superficie de respuesta (en el caso de la respuesta cuadrática) (Fig. 3.9-3.12).
Es decir, "cresta" en realidad se refiere a las características de la función que estábamos tratando de optimizar, en lugar de agregar una "cresta" (+ ve diagonal) a la matriz (por lo tanto, si bien la regresión de cresta se suma a la diagonal, no es por eso que lo llamamos 'regresión de cresta').XTX
Para obtener información adicional sobre la necesidad de la regresión de crestas, consulte el primer enlace en el elemento de la lista 2. anterior.
Referencias
[1]: Hoerl, AE (1959). Solución óptima de ecuaciones de muchas variables. Progreso de ingeniería química ,
55 (11) 69-78.
[2]: Hoerl, AE (1962). Aplicaciones del análisis de crestas a problemas de regresión. Progreso de ingeniería química ,
58 (3) 54-59.
[3] Hoerl, RW (1985). Análisis de crestas 25 años después.
Estadístico estadounidense , 39 (3), 186-192
Esto es extremadamente útil. Sí, cuando pedía ideas, buscaba intuición. Por supuesto, las matemáticas son importantes, pero también estaba buscando explicaciones conceptuales, porque hay algunas partes cuando las matemáticas estaban más allá de mí. Gracias de nuevo.
cgo
¿Por qué tienes la palabra "ponderada" en el punto 1?
ameba dice Reinstate Monica
1
Es una buena pregunta; no es necesario ponderarlo a menos que se haya ponderado la regresión original. He eliminado el adjetivo. Es también posible escribir como una regresión ponderada (que si usted ya está haciendo regresión ponderada podría ser ligeramente más fácil de tratar).
Glen_b
36
Si nuestro término de penalización será infinito para cualquier no sea , entonces ese es el que obtendremos. No hay otro vector que nos dé un valor finito de la función objetivo.λ→∞ββ=0
(Actualización: consulte la respuesta de Glen_b. ¡Esta no es la razón histórica correcta!)
Esto proviene de la solución de regresión de crestas en notación matricial. La solución resulta ser
El término agrega una "cresta" a la diagonal principal y garantiza que la matriz resultante sea invertible. Esto significa que, a diferencia de OLS, siempre obtendremos una solución.
β^=(XTX+λI)−1XTY.
λI
La regresión de cresta es útil cuando los predictores están correlacionados. En este caso, los OLS pueden dar resultados descabellados con coeficientes enormes, pero si son penalizados podemos obtener resultados mucho más razonables. En general, una gran ventaja de la regresión de crestas es que la solución siempre existe, como se mencionó anteriormente. Esto se aplica incluso al caso donde , para el cual OLS no puede proporcionar una solución (única).n<p
La regresión de cresta también es el resultado cuando se coloca un previo normal en el vector .β
Aquí está la regresión bayesiana de la cresta: supongamos que nuestro anterior para es . Entonces porque [por supuesto] tenemos que
ββ∼N(0,σ2λIp)(Y|X,β)∼N(Xβ,σ2In)
Busquemos el modo posterior (podríamos ver la media posterior u otras cosas también, pero para esto veamos el modo, es decir, el valor más probable). Esto significa que queremos
que es equivalente a
maxβ∈Rpexp(−λ2σ2βTβ−12σ2||y−Xβ||2)
maxβ∈Rp−λ2σ2βTβ−12σ2||y−Xβ||2
porque es estrictamente monótono y esto a su vez es equivalente a
log
minβ∈Rp||y−Xβ||2+λβTβ
que debería parecer bastante familiar.
Así vemos que si ponemos un previo normal con media 0 y varianza en nuestro vector , el valor de que maximiza el posterior es el estimador de cresta. Tenga en cuenta que esto trata a más como un parámetro frecuenta porque no hay antecedentes, pero no se conoce, por lo que no es completamente bayesiano.σ2λββσ2
Editar: usted preguntó sobre el caso donde . Sabemos que un hiperplano en está definido por exactamente puntos. Si estamos ejecutando una regresión lineal entonces exactamente interpolamos nuestros datos y obtenemos . Esta es una solución, pero es terrible: nuestro rendimiento en los datos futuros probablemente será abismal. Ahora suponga que : ya no hay un hiperplano único definido por estos puntos. Podemos ajustar una multitud de hiperplanos, cada uno con 0 suma residual de cuadrados.n<pRppn=p||y−Xβ^||2=0n<p
Un ejemplo muy simple: supongamos que . Luego, obtendremos una línea entre estos dos puntos. Ahora suponga que pero . Imagina un avión con estos dos puntos. Podemos rotar este plano sin cambiar el hecho de que estos dos puntos están en él, por lo que hay innumerables modelos, todos con un valor perfecto de nuestra función objetivo, por lo que incluso más allá del tema del sobreajuste, no está claro cuál elegir.n=p=2n=2p=3
Como comentario final (según la sugerencia de @ gung), el LASSO (que usa una penalización ) se usa comúnmente para problemas de alta dimensión porque realiza automáticamente la selección de variables (establece algunos ). Deliciosamente, resulta que el LASSO es equivalente a encontrar el modo posterior cuando se usa un doble exponencial (también conocido como Laplace) antes en el vector . El LASSO también tiene algunas limitaciones, tales como la saturación en predictores y no grupos de predictores correlacionados necesariamente la manipulación de una manera ideal, a lo que la red elástica (combinación convexa de y sanciones) puede ser llevado a soportar.L1βj=0βnL1L2
(+1) Su respuesta podría mejorarse elaborando la conexión entre la regresión bayesiana y la cresta.
Restablece a Mónica
1
Lo haré, escribiéndolo ahora.
2015
44
OLS no puede encontrar una solución única cuando porque la matriz de diseño no es de rango completo. Esta es una pregunta muy común; busque en los archivos una descripción de por qué esto no funciona. n<p
Restablece a Mónica
2
@cgo: la explicación y sugerencia del usuario777 para buscar es buena, pero en aras de la exhaustividad también he agregado una explicación (con suerte) intuitiva.
2015
55
+1, buena respuesta. Re n <p, puede mencionar que el LASSO se usa típicamente en este caso y que está estrechamente relacionado con RR.
(Actualización: consulte la respuesta de Glen_b. ¡Esta no es la razón histórica correcta!)
La regresión de cresta es útil cuando los predictores están correlacionados. En este caso, los OLS pueden dar resultados descabellados con coeficientes enormes, pero si son penalizados podemos obtener resultados mucho más razonables. En general, una gran ventaja de la regresión de crestas es que la solución siempre existe, como se mencionó anteriormente. Esto se aplica incluso al caso donde , para el cual OLS no puede proporcionar una solución (única).n<p
La regresión de cresta también es el resultado cuando se coloca un previo normal en el vector .β
Aquí está la regresión bayesiana de la cresta: supongamos que nuestro anterior para es . Entonces porque [por supuesto] tenemos queβ β∼N(0,σ2λIp) (Y|X,β)∼N(Xβ,σ2In)
Busquemos el modo posterior (podríamos ver la media posterior u otras cosas también, pero para esto veamos el modo, es decir, el valor más probable). Esto significa que queremos que es equivalente a
que debería parecer bastante familiar.
Así vemos que si ponemos un previo normal con media 0 y varianza en nuestro vector , el valor de que maximiza el posterior es el estimador de cresta. Tenga en cuenta que esto trata a más como un parámetro frecuenta porque no hay antecedentes, pero no se conoce, por lo que no es completamente bayesiano.σ2λ β β σ2
Editar: usted preguntó sobre el caso donde . Sabemos que un hiperplano en está definido por exactamente puntos. Si estamos ejecutando una regresión lineal entonces exactamente interpolamos nuestros datos y obtenemos . Esta es una solución, pero es terrible: nuestro rendimiento en los datos futuros probablemente será abismal. Ahora suponga que : ya no hay un hiperplano único definido por estos puntos. Podemos ajustar una multitud de hiperplanos, cada uno con 0 suma residual de cuadrados.n<p Rp p n=p ||y−Xβ^||2=0 n<p
Un ejemplo muy simple: supongamos que . Luego, obtendremos una línea entre estos dos puntos. Ahora suponga que pero . Imagina un avión con estos dos puntos. Podemos rotar este plano sin cambiar el hecho de que estos dos puntos están en él, por lo que hay innumerables modelos, todos con un valor perfecto de nuestra función objetivo, por lo que incluso más allá del tema del sobreajuste, no está claro cuál elegir.n=p=2 n=2 p=3
Como comentario final (según la sugerencia de @ gung), el LASSO (que usa una penalización ) se usa comúnmente para problemas de alta dimensión porque realiza automáticamente la selección de variables (establece algunos ). Deliciosamente, resulta que el LASSO es equivalente a encontrar el modo posterior cuando se usa un doble exponencial (también conocido como Laplace) antes en el vector . El LASSO también tiene algunas limitaciones, tales como la saturación en predictores y no grupos de predictores correlacionados necesariamente la manipulación de una manera ideal, a lo que la red elástica (combinación convexa de y sanciones) puede ser llevado a soportar.L1 βj=0 β n L1 L2
fuente