¿Cuáles son las ventajas / desventajas de usar splines, splines suavizadas y emuladores de procesos gaussianos?

20

Estoy interesado en aprender (e implementar) una alternativa a la interpolación polinómica.

Sin embargo, tengo problemas para encontrar una buena descripción de cómo funcionan estos métodos, cómo se relacionan y cómo se comparan.

Le agradecería su opinión sobre los pros / contras / condiciones bajo las cuales estos métodos o alternativas serían útiles, pero algunas buenas referencias a textos, diapositivas o podcasts serían suficientes.

David LeBauer
fuente
De hecho, esta es una pregunta muy interesante, pero ¿quizás (solo tal vez) más apropiada para math.stackexchange.com ?
steffen
Hay algunos materiales sobre splines y splines de suavizado en The Elements of Statistical Learning de Hastie et al.
NPE
8
Creo que esta es una pregunta perfectamente razonable sobre estadísticas de cálculo.
csgillespie
@csgillespie: Todo lo que sé sobre splines e interpolación lo aprendí en conferencias numéricas / matemáticas. Por lo tanto, puedo ser un poco parcial;).
steffen

Respuestas:

24

La regresión OLS básica es una muy buena técnica para ajustar una función a un conjunto de datos. Sin embargo, regresión simple sólo se ajusta una línea recta que es constante para toda la gama posible de . Esto puede no ser apropiado para una situación dada. Por ejemplo, los datos a veces muestran una relación curvilínea . Esto puede tratarse mediante la regresión de Y en una transformación de X , f ( X ) . Son posibles diferentes transformaciones. En situaciones donde se puede utilizar la relación entre X e Y. Otra opción popular es usar un polinomio donde se forman nuevos términos al elevar XXYXf(X)XY monótona , pero se reduce progresivamente, una transformación logarítmicaX a una serie de potencias (por ejemplo, , X 3 , etc.). Esta estrategia es fácil de implementar, y puede interpretar el ajuste como diciéndole cuántas 'curvas' existen en sus datos (donde el número de curvas es igual a la potencia más alta necesaria menos 1). X2X3

Sin embargo, las regresiones basadas en el logaritmo o un exponente de la covariable se ajustarán de manera óptima solo cuando esa sea la naturaleza exacta de la relación verdadera. Es bastante razonable imaginar que existe una relación curvilínea entre e Y que es diferente de las posibilidades que ofrecen esas transformaciones. Por lo tanto, llegamos a otras dos estrategias. El primer enfoque es loess , una serie de regresiones lineales ponderadas calculadas sobre una ventana móvil. Este enfoque es más antiguo y se adapta mejor al análisis exploratorio de datos . XY

XX y se agregaría a su modelo,ademásdeltérminoXoriginal. El modelo ajustado mostrará una ruptura brusca en .7 con una línea recta de 0 a .7, y la línea continúa con una pendiente diferente de .7 a 1. Sin embargo, un término spline no necesita ser lineal. Específicamente, se ha determinado que las splines cúbicas son especialmente útiles (es decir,X 3 s p l i n e

Xspline={0if X.7X.7if X>.7

XXspline3) La ruptura brusca no necesita estar allí tampoco. Se han desarrollado algoritmos que restringen los parámetros ajustados de modo que la primera y la segunda derivada coincidan en los nudos, lo que hace que los nudos sean imposibles de detectar en la salida. El resultado final de todo esto es que con solo unos pocos nudos (generalmente 3-5) en ubicaciones elegidas (que el software puede determinar por usted) puede reproducir prácticamente cualquiercurva. Además, los grados de libertad se calculan correctamente, por lo que puede confiar en los resultados, lo que no es cierto cuando mira sus datos primero y luego decide ajustar un término al cuadrado porque vio una curva. Además, todo esto es solo otra versión (aunque más complicada) del modelo lineal básico. Por lo tanto, todo lo que obtenemos con modelos lineales viene con esto (por ejemplo, predicciones, residuos, bandas de confianza, pruebas, etc.) Estas son ventajas sustanciales .

La introducción más simple a estos temas que conozco es:

gung - Restablece a Monica
fuente
6

Las notas en línea de Cosma Shalizi sobre su curso de lectura Análisis avanzado de datos desde un punto de vista elemental son bastante buenas sobre este tema, y ​​miran las cosas desde una perspectiva donde la interpolación y la regresión son dos enfoques para el mismo problema. En particular, llamaría su atención sobre los capítulos sobre métodos de suavizado y splines .

Martin O'Leary
fuente
Sus enlaces podrían usar la actualización. Lo intenté, pero debes verificar que mis ediciones propuestas lleguen a las páginas que pretendías.
Gregor