¿Aplicando la regresión de cresta para un sistema de ecuaciones subdeterminado?

9

Cuando , el problema de mínimos cuadrados que impone una restricción esférica en el valor de se puede escribir como para un sistema sobredeterminado. \ | \ cdot \ | _2 es la norma euclidiana de un vector.y=Xβ+eδβ

min yXβ22s.t.  β22δ2
2

La solución correspondiente a β viene dada por

β^=(XTX+λI)1XTy ,
que puede derivarse del método de multiplicadores de Lagrange ( λ es el multiplicador):
L(β,λ)=yXβ22+λ(β22δ2)

Entiendo que hay una propiedad que

(XTX+λI)1XT=XT(XXT+λI)1 .
El lado derecho se parece al pseudoinverso de la matriz regresiva X en el caso subdeterminado (con el parámetro de regularización agregado, λ ). ¿Significa esto que la misma expresión se puede usar para aproximar β para el caso subdeterminado? ¿Hay una derivación separada para la expresión correspondiente en el caso subdeterminado, ya que la restricción de restricción esférica es redundante con la función objetivo (norma mínima de β ):

min. β2s.t. Xβ=y .
hatmatrix
fuente

Respuestas:

12

Comenzando con la formulación del problema de regresión de cresta como

minXβy22+λx22

puedes escribir el problema como

minAβb22

dónde

A=[XλI]

y

b=[y0].

La matriz tiene rango completo debido a la parte. Por lo tanto, el problema de los mínimos cuadrados como una solución únicaAλI

β^=(ATA)1ATb

Escribiendo esto en términos de e , y simplificando muchos ceros, obtenemosXy

β^=(XTX+λI)1XTy

Nada en esta derivación depende de si tiene más filas o columnas, o incluso de si tiene rango completo. Esta fórmula es, por lo tanto, aplicable al caso indeterminado. XX

Es un hecho algebraico que para ,λ>0

(XTX+λI)1XT=XT(XXT+λI)1

Por lo tanto, también tenemos la opción de usar

β^=XT(XXT+λI)1y .

Para responder a sus preguntas específicas:

  1. Sí, ambas fórmulas funcionan tanto para el caso indeterminado como para el caso sobredeterminado. También trabajo si es menor que el mínimo del número de filas y columnas de . La segunda versión puede ser más eficiente para problemas indeterminados porque es más pequeño que en ese caso. rank(X)XXXTXTX

  2. No conozco ninguna derivación de la versión alternativa de la fórmula que comience con algún otro problema de mínimos cuadrados amortiguados y use las ecuaciones normales. En cualquier caso, puede derivarlo de una manera directa usando un poco de álgebra.

Es posible que esté pensando en el problema de regresión de cresta en el formulario

minβ22

sujeto a

Xβy22ϵ.

Sin embargo, esta versión del problema de regresión de crestas simplemente conduce al mismo problema de mínimos cuadrados amortiguadas .minXβy22+λβ22

Brian Borchers
fuente
2
Vale la pena señalar lo que sucede en el límite, ya que va a 0 si tiene rango de fila completo o rango de columna completo. Si tiene rango de columna completo, entonces en el límite, obtienes el pseudoinverso . Del mismo modo, si tiene un rango de fila completo, entonces en el límite se obtiene el pseudoinverso . Entonces, esto funciona como era de esperar. λXX(XTX)1XTXXT(XXT)1
Brian Borchers
Esta es una respuesta fenomenalmente completa y la derivación de las matrices aumentadas (más álgebra que me perdí) es muy satisfactoria. No estaba pensando en el problema de regresión de crestas en la forma que presentaste al final, pero es interesante ver que conduce a la misma función objetivo. Muchas gracias!
hatmatrix
1
Gracias. Insertaré un enchufe descarado aquí. Puede encontrar esto (y mucho material relacionado) en el libro de texto sobre estimación de parámetros y problemas inversos que coautoré con Rick Aster y Cliff Thurber.
Brian Borchers
1
Permítanme agregar que calcular la inversa de esta matriz no suele ser la mejor manera de utilizar esta fórmula. Dependiendo del tamaño y la posible escasez de podría ser mucho mejor usar un esquema iterativo o simplemente usando la factorización de Cholesky de la matriz . XXTX+λI
Brian Borchers
Gracias por tus sugerencias! Agradezco la referencia a su libro, ya que he tenido problemas para encontrar un libro de texto sobre este material. Nuestro tamaño de datos en realidad no es muy grande (solo que es posible que tengamos que aplicar esto muchas veces para separar conjuntos de datos), por lo que puede ser susceptible a la inversa directa, ¡pero gracias por los punteros adicionales!
hatmatrix