¿La regularización de Tikhonov es lo mismo que la Regresión de Ridge?

Respuestas:

47

La regularización de Tikhonov es un conjunto mayor que la regresión de cresta. Aquí está mi intento de explicar exactamente cómo difieren.

Suponga que para una matriz conocida y un vector , deseamos encontrar un vector tal que:b xAbx

Ax=b .

El enfoque estándar es la regresión lineal de mínimos cuadrados ordinarios. Sin embargo, si ninguna x satisface la ecuación o más de una x hace, es decir, la solución no es única, se dice que el problema está mal planteado. Los mínimos cuadrados ordinarios buscan minimizar la suma de los residuos al cuadrado, que se pueden escribir de forma compacta como:

Axb2

donde es la norma euclidiana En notación matricial, la solución, denotada por x^ , viene dada por:

x^=(ATA)1ATb

La regularización de Tikhonov minimiza

Axb2+Γx2

para alguna matriz de Tikhonov elegida adecuadamente, . Una solución de forma de matriz explícita, denotada por , viene dada por:xΓx^

x^=(ATA+ΓTΓ)1ATb

El efecto de la regularización puede variar a través de la escala de matriz . Para esto se reduce a la solución de mínimos cuadrados no regularizados siempre que exista (A T A) -1 .Γ = 0ΓΓ=0

Típicamente para la regresión de cresta , se describen dos desviaciones de la regularización de Tikhonov. Primero, la matriz de Tikhonov se reemplaza por un múltiplo de la matriz de identidad

Γ=αI ,

dando preferencia a soluciones con una norma más pequeña, es decir, la norma . Entonces convierte en conduciendo aΓ T Γ α 2 IL2ΓTΓα2I

x^=(ATA+α2I)1ATb

Finalmente, para la regresión de cresta, se supone típicamente que las variables se escalan de modo que tiene la forma de una matriz de correlación. y es el vector de correlación entre las variables y , lo que lleva aX T X X T b x bAXTXXTbxb

x^=(XTX+α2I)1XTb

Tenga en cuenta de esta forma que el multiplicador de Lagrange generalmente se reemplaza por , o algún otro símbolo, pero conserva la propiedad k λ λ 0α2kλλ0

Al formular esta respuesta, reconozco los préstamos generosos de Wikipedia y de la estimación de Ridge de los pesos de la función de transferencia

Carl
fuente
10
(+1) Para completar, vale la pena mencionar que, en la aplicación práctica, el sistema regularizado normalmente se escribiría en la forma , que luego puede resolverse como un problema estándar de mínimos cuadrados lineales (por ejemplo, a través de QR / SVD en , sin formar explícitamente las ecuaciones normales). [AαΓ]x[b0]A^xb^A^
GeoMatt22
Buen punto. Lo agregaré más tarde.
Carl
¿Las splines suavizadas y los métodos de expansión de bases similares son un subconjunto de la regularización de Tikhonov?
Sycorax dice Reinstate Monica el
@Sycorax no lo espero. Por ejemplo, una B-spline establecería derivados en cero en los puntos finales, y uniría las derivadas y las magnitudes de la spline con los datos entre puntos finales. La regularización de Tikhonov minimizará cualquier error de parámetro que le indique cambiando la pendiente de ajuste. Entonces, cosas diferentes.
Carl
Además, la regularización de Tychonov tiene una formulación en dimensiones arbitrarias para espacios de Hilbert (¿separables?)
AIM_BLB
23

Carl ha dado una respuesta exhaustiva que explica muy bien las diferencias matemáticas entre la regularización de Tikhonov y la regresión de cresta. Inspirado por la discusión histórica aquí , pensé que podría ser útil agregar un breve ejemplo que demuestre cómo el marco más general de Tikhonov puede ser útil.

Primero una breve nota sobre el contexto. La regresión de crestas surgió en las estadísticas, y aunque la regularización ahora está muy extendida en las estadísticas y el aprendizaje automático, el enfoque de Tikhonov fue motivado originalmente por problemas inversos que surgieron en la asimilación de datos basada en modelos (particularmente en geofísica ). El siguiente ejemplo simplificado se encuentra en esta categoría (se utilizan versiones más complejas para reconstrucciones paleoclimáticas ).


Imagina que queremos reconstruir las temperaturas en el pasado, en base a las mediciones actuales . En nuestro modelo simplificado asumiremos que la temperatura evoluciona de acuerdo con la ecuación de calor en 1D con condiciones de contorno periódicas Un enfoque de diferencia finita simple (explícito) conduce al modelo discreto Matemáticamente, la matriz de evolución es invertible, por lo que tenemos Sin embargo numéricamenteu[x,t=0]u[x,t=T]

ut=uxx
u[x+L,t]=u[x,t]
ΔuΔt=LuΔx2ut+1=Aut
A
ut=A1ut+1
, surgirán dificultades si el intervalo de tiempo es demasiado largo.T

La regularización de Tikhonov puede resolver este problema resolviendo que agrega una pequeña penalización en la rugosidad .

Autut+1ωLut0
ω21uxx

A continuación se muestra una comparación de los resultados:

Tikhonov contra tablero de ajedrez

Podemos ver que la temperatura original tiene un perfil suave, que se suaviza aún más por difusión para dar . La inversión directa no puede recuperar , y la solución muestra fuertes artefactos de "tablero de ajedrez" . Sin embargo, la solución de Tikhonov puede recuperar con bastante buena precisión.u0ufwdu0uinvuregu0

Tenga en cuenta que en este ejemplo, la regresión de cresta siempre empujaría nuestra solución hacia una "edad de hielo" (es decir, temperaturas cero uniformes). La regresión de Tikhonov nos permite una restricción previa física más flexible : aquí nuestra penalización dice esencialmente que la reconstrucción debería evolucionar lentamente, es decir, .uut0


El código de Matlab para el ejemplo está debajo (se puede ejecutar en línea aquí ).

% Tikhonov Regularization Example: Inverse Heat Equation
n=15; t=2e1; w=1e-2; % grid size, # time steps, regularization
L=toeplitz(sparse([-2,1,zeros(1,n-3),1]/2)); % laplacian (periodic BCs)
A=(speye(n)+L)^t; % forward operator (diffusion)
x=(0:n-1)'; u0=sin(2*pi*x/n); % initial condition (periodic & smooth)
ufwd=A*u0; % forward model
uinv=A\ufwd; % inverse model
ureg=[A;w*L]\[ufwd;zeros(n,1)]; % regularized inverse
plot(x,u0,'k.-',x,ufwd,'k:',x,uinv,'r.:',x,ureg,'ro');
set(legend('u_0','u_{fwd}','u_{inv}','u_{reg}'),'box','off');
GeoMatt22
fuente
Todos los cumplidos recibidos calurosamente. Vale la pena mencionar, incluso si está ligeramente fuera de tema, que tanto la regularización de Tikhonov como la regresión de cresta pueden usarse para apuntar a objetivos de regresión física. (+1)
Carl
2
v=Lu