Ajuste regularizado a partir de datos resumidos: elección del parámetro

9

Siguiendo con mi pregunta anterior , la solución a las ecuaciones normales para la regresión de crestas viene dada por:

β^λ=(XTX+λI)1XTy

¿Podría ofrecer alguna guía para elegir el parámetro de regularización ? Además, dado que la diagonal de crece con el número de observaciones , ¿debería también ser una función de ?λXTXmλm

NPE
fuente

Respuestas:

7

Mi respuesta se basará en una buena revisión del problema por la regresión de Anders Bjorkstorm Ridge y los problemas inversos (recomendaría leer el artículo completo).

La Parte 4 de esta revisión está dedicada a la selección de un parámetro en la regresión de crestas que presenta varios enfoques clave:λ

  1. el rastro de cresta corresponde al análisis gráfico de contra . Una trama típica representará un comportamiento inestable (para un verdadero problema mal publicado, debe asegurarse de que necesita esta regularización en cualquier caso) de diferentes estimaciones de para cerca de cero, y casi constante desde algún punto (aproximadamente tenemos que detectar la región de intersección de comportamiento constante para todos los parámetros). Sin embargo, la decisión sobre dónde comienza este comportamiento casi constante es algo subjetiva. Una buena noticia para este enfoque es que no requiere observar e .β^i,λλβ^i,λλXy
  2. L curva traza la norma euclidiana del vector de parámetros estimadoscontra la norma residual. La forma suele estar cerca de la letra por lo que existe una esquina que determina a dónde pertenece el parámetro óptimo (uno puede elegir el punto en la curva donde este alcanza la curvatura máxima , pero es mejor buscar el artículo de Hansen para obtener más información) detalles).|β^λ||yXβ^λ|LL
  3. Para la validación cruzada, a menudo se elige un enfoque simple de "dejar uno afuera", buscando que maximice (o minimice) algún criterio de precisión de pronóstico (tiene una amplia gama de ellos, RMSE y MAPE son los dos para comenzar) con). Las dificultades con 2. y 3. son que tienes que observar e para implementarlas en la práctica.λXy
Dmitrij Celov
fuente
3
En mi experiencia, dejar una validación cruzada casi siempre resulta en muy poca regularización. validación cruzada fold casi siempre funciona mejor. k
cardenal
(+1) @cardinal, buena adición, para ser sincero, tengo poca experiencia con los métodos de validación cruzada. Las cosas simples habituales que usé en la práctica son cuchillos de gato (cayendo hastak observaciones posteriores) y sin muestras para datos de series temporales. Aunque -fold también podría implementarse para algunos modelos de series temporales, primero tengo que probarlo para construir mi propia experiencia. k
Dmitrij Celov
Hay algunos buenos métodos de arranque en bloque para series temporales estacionarias. Quizás podrían o han sido modificados con el propósito de seleccionar un parámetro de regularización.
cardenal
Puede encontrar útil el siguiente documento: Golub, GH; Heath, M. y Wahba, G. Validación cruzada generalizada como método para elegir un buen parámetro de cresta. Technometrics, 1979, 21, 215-223. El criterio introducido por Golub et al. No requiere ningún muestreo.
emakalic