¿La regularización de Tikhonov es lo mismo que la Regresión de Ridge?

La regularización de Tikhonov y la regresión de crestas son términos que a menudo se usan como si fueran idénticos. ¿Es posible especificar exactamente cuál es la diferencia?

regression terminology regularization ridge-regression tikhonov-regularization Carl
fuente

Respuestas:

La regularización de Tikhonov es un conjunto mayor que la regresión de cresta. Aquí está mi intento de explicar exactamente cómo difieren.

Suponga que para una matriz conocida y un vector , deseamos encontrar un vector tal que: $A$ $b$ $\mathbf{x}$

$A\mathbf{x}=\mathbf{b}$ .

El enfoque estándar es la regresión lineal de mínimos cuadrados ordinarios. Sin embargo, si ninguna $x$ satisface la ecuación o más de una $x$ hace, es decir, la solución no es única, se dice que el problema está mal planteado. Los mínimos cuadrados ordinarios buscan minimizar la suma de los residuos al cuadrado, que se pueden escribir de forma compacta como:

$\|A\mathbf{x}-\mathbf{b}\|^2$

donde $\left \| \cdot \right \|$ es la norma euclidiana En notación matricial, la solución, denotada por $\hat{x}$ , viene dada por:

$\hat{x} = (A^{T}A)^{-1}A^{T}\mathbf{b}$

La regularización de Tikhonov minimiza

$\|A\mathbf{x}-\mathbf{b}\|^2+ \|\Gamma \mathbf{x}\|^2$

para alguna matriz de Tikhonov elegida adecuadamente, . Una solución de forma de matriz explícita, denotada por , viene dada por: $\Gamma$ $\hat{x}$

$\hat{x} = (A^{T}A+ \Gamma^{T} \Gamma )^{-1}A^{T}{b}$

El efecto de la regularización puede variar a través de la escala de matriz . Para esto se reduce a la solución de mínimos cuadrados no regularizados siempre que exista (A ^T A) ^-1 . $\Gamma$ $\Gamma = 0$

Típicamente para la regresión de cresta , se describen dos desviaciones de la regularización de Tikhonov. Primero, la matriz de Tikhonov se reemplaza por un múltiplo de la matriz de identidad

$\Gamma= \alpha I$ ,

dando preferencia a soluciones con una norma más pequeña, es decir, la norma . Entonces convierte en conduciendo a $L_2$ $\Gamma^{T} \Gamma$ $\alpha^2 I$

$\hat{x} = (A^{T}A+ \alpha^2 I )^{-1}A^{T}{b}$

Finalmente, para la regresión de cresta, se supone típicamente que las variables se escalan de modo que tiene la forma de una matriz de correlación. y es el vector de correlación entre las variables y , lo que lleva a $A$ $X^{T}X$ $X^{T}b$ $x$ $b$

$\hat{x} = (X^{T}X+ \alpha^2 I )^{-1}X^{T}{b}$

Tenga en cuenta de esta forma que el multiplicador de Lagrange generalmente se reemplaza por , o algún otro símbolo, pero conserva la propiedad $\alpha^2$ $k$ $\lambda$ $\lambda\geq0$

Al formular esta respuesta, reconozco los préstamos generosos de Wikipedia y de la estimación de Ridge de los pesos de la función de transferencia

Carl
fuente

(+1) Para completar, vale la pena mencionar que, en la aplicación práctica, el sistema regularizado normalmente se escribiría en la forma , que luego puede resolverse como un problema estándar de mínimos cuadrados lineales (por ejemplo, a través de QR / SVD en , sin formar explícitamente las ecuaciones normales).

[\begin{matrix} A \\ α Γ \end{matrix}] x \approx [\begin{matrix} b \\ 0 \end{matrix}] ⟹ \hat{A} x \approx \hat{b}

$\begin{bmatrix}A\\ \alpha \Gamma\\ \end{bmatrix}x\approx\begin{bmatrix}b\\0\\ \end{bmatrix}\implies \hat{A}x\approx \hat{b}$

\hat{A}

$\hat{A}$

GeoMatt22

Buen punto. Lo agregaré más tarde.

Carl

¿Las splines suavizadas y los métodos de expansión de bases similares son un subconjunto de la regularización de Tikhonov?

Sycorax dice Reinstate Monica el

@Sycorax no lo espero. Por ejemplo, una B-spline establecería derivados en cero en los puntos finales, y uniría las derivadas y las magnitudes de la spline con los datos entre puntos finales. La regularización de Tikhonov minimizará cualquier error de parámetro que le indique cambiando la pendiente de ajuste. Entonces, cosas diferentes.

Carl

Además, la regularización de Tychonov tiene una formulación en dimensiones arbitrarias para espacios de Hilbert (¿separables?)

AIM_BLB

Carl ha dado una respuesta exhaustiva que explica muy bien las diferencias matemáticas entre la regularización de Tikhonov y la regresión de cresta. Inspirado por la discusión histórica aquí , pensé que podría ser útil agregar un breve ejemplo que demuestre cómo el marco más general de Tikhonov puede ser útil.

Primero una breve nota sobre el contexto. La regresión de crestas surgió en las estadísticas, y aunque la regularización ahora está muy extendida en las estadísticas y el aprendizaje automático, el enfoque de Tikhonov fue motivado originalmente por problemas inversos que surgieron en la asimilación de datos basada en modelos (particularmente en geofísica ). El siguiente ejemplo simplificado se encuentra en esta categoría (se utilizan versiones más complejas para reconstrucciones paleoclimáticas ).

Imagina que queremos reconstruir las temperaturas en el pasado, en base a las mediciones actuales . En nuestro modelo simplificado asumiremos que la temperatura evoluciona de acuerdo con la ecuación de calor en 1D con condiciones de contorno periódicas Un enfoque de diferencia finita simple (explícito) conduce al modelo discreto Matemáticamente, la matriz de evolución es invertible, por lo que tenemos Sin embargo numéricamente $u[x,t=0]$ $u[x,t=T]$

u_{t} = u_{x x}

$u_t = u_{xx}$

u [x + L, t] = u [x, t]

$u[x+L,t] = u[x,t]$

\frac{Δ u}{Δ t} = \frac{L u}{Δ x^{2}} ⟹ u_{t + 1} = {A u}_{t}

$\frac{\Delta\mathbf{u}}{\Delta{t}} = \frac{\mathbf{Lu}}{\Delta{x^2}} \implies \mathbf{u}_{t+1} = \mathbf{Au}_t$

A

$\mathbf{A}$

u_{t} = {A^{- 1} u}_{t + 1}

$\mathbf{u}_t = \mathbf{A^{-1}u}_{t+1}$ , surgirán dificultades si el intervalo de tiempo es demasiado largo.

T

$T$

La regularización de Tikhonov puede resolver este problema resolviendo que agrega una pequeña penalización en la rugosidad .

\begin{aligned} {A u}_{t} & \approx u_{t + 1} \\ ω {L u}_{t} & \approx 0 \end{aligned}

$\begin{align} \mathbf{Au}_t &\approx \mathbf{u}_{t+1} \\ \omega\mathbf{Lu}_t &\approx \mathbf{0} \end{align}$

ω^{2} ≪ 1

$\omega^2\ll{1}$

u_{x x}

$u_{xx}$

A continuación se muestra una comparación de los resultados:

Podemos ver que la temperatura original tiene un perfil suave, que se suaviza aún más por difusión para dar . La inversión directa no puede recuperar , y la solución muestra fuertes artefactos de "tablero de ajedrez" . Sin embargo, la solución de Tikhonov puede recuperar con bastante buena precisión. $u_0$ $u_\mathsf{fwd}$ $u_0$ $u_\mathsf{inv}$ $u_\mathsf{reg}$ $u_0$

Tenga en cuenta que en este ejemplo, la regresión de cresta siempre empujaría nuestra solución hacia una "edad de hielo" (es decir, temperaturas cero uniformes). La regresión de Tikhonov nos permite una restricción previa física más flexible : aquí nuestra penalización dice esencialmente que la reconstrucción debería evolucionar lentamente, es decir, . $\mathbf{u}$ $u_t\approx{0}$

El código de Matlab para el ejemplo está debajo (se puede ejecutar en línea aquí ).

% Tikhonov Regularization Example: Inverse Heat Equation
n=15; t=2e1; w=1e-2; % grid size, # time steps, regularization
L=toeplitz(sparse([-2,1,zeros(1,n-3),1]/2)); % laplacian (periodic BCs)
A=(speye(n)+L)^t; % forward operator (diffusion)
x=(0:n-1)'; u0=sin(2*pi*x/n); % initial condition (periodic & smooth)
ufwd=A*u0; % forward model
uinv=A\ufwd; % inverse model
ureg=[A;w*L]\[ufwd;zeros(n,1)]; % regularized inverse
plot(x,u0,'k.-',x,ufwd,'k:',x,uinv,'r.:',x,ureg,'ro');
set(legend('u_0','u_{fwd}','u_{inv}','u_{reg}'),'box','off');

GeoMatt22
fuente

Todos los cumplidos recibidos calurosamente. Vale la pena mencionar, incluso si está ligeramente fuera de tema, que tanto la regularización de Tikhonov como la regresión de cresta pueden usarse para apuntar a objetivos de regresión física. (+1)

Carl

v = L u

$v=Lu$