¿Cómo se relaciona la interpolación con el concepto de regresión?

17

Explique brevemente ¿Qué se entiende por interpolación? ¿Cómo se relaciona con el concepto de regresión?

La interpolación es el arte de leer entre las líneas de una tabla y, en matemática elemental, el término generalmente denota el proceso de calcular los valores intermedios de una función a partir de un conjunto de valores dados o tabulares de esa función.

No puedo dar la respuesta de la segunda pregunta. Por favor ayuda

Argha
fuente
44
La regresión tiene como objetivo identificar una función para describir el valor esperado de (la variable dependiente) dada (las variables independientes). La interpolación utiliza la regresión para predecir el valor de Y en valores dados de X . La diferencia es sutil, pero se destaca en los modelos donde las Y están correlacionadas, porque los valores pronosticados generalmente difieren de sus valores de regresión. Ni la regresión ni la predicción se aplican directamente a la interpolación en tablas matemáticas, que generalmente se supone que no tienen errores aleatorios, pero sus algoritmos aún se pueden usar. YXYXY
whuber
2
¿Es esto trabajo para alguna clase?
Glen_b -Reinstala a Monica el

Respuestas:

23

La principal diferencia entre interpolación y regresión es la definición del problema que resuelven.

Dados n puntos de datos, cuando interpola, busca una función que tenga una forma predefinida que tenga los valores en esos puntos exactamente como se especifica. Eso significa que los pares dados (xi,yi) buscan F de alguna forma predefinida que satisfaga F(xi)=yi . Creo que más comúnmente se elige F como polinomio, spline (polinomios de bajo grado en intervalos entre puntos dados).

Cuando hace una regresión, busca una función que minimice algunos costos, generalmente la suma de cuadrados de errores. No necesita que la función tenga los valores exactos en los puntos dados, solo desea una buena aproximación. En general, su función encontrada podría no satisfacer para cualquier punto de datos, pero la función de costo, es decir, será la más pequeña posible de todas las funciones de forma dada.FF(xi)=yii=1n(F(xi)yi)2

Un buen ejemplo de por qué es posible que solo desee aproximar en lugar de interpolar los precios en el mercado de valores. Puede tomar precios en algunas unidades de tiempo recientes e intentar interpolarlos para obtener una predicción del precio en la siguiente unidad de tiempo. Esta es una mala idea, porque no hay razón para pensar que las relaciones entre los precios puedan expresarse exactamente por un polinomio. Pero la regresión lineal podría ser útil, ya que los precios podrían tener cierta "pendiente" y una función lineal podría ser una buena aproximación, al menos localmente (pista: no es tan fácil, pero la regresión es definitivamente una mejor idea que la interpolación en este caso )k

sjm.majewski
fuente
Buena respuesta. Agregaría que con la regresión, hay un modelo estadístico detrás que define la relación entre y en términos de alguna distribución, donde estimamos su media (o mediana, o cuantiles, etc. en diferentes tipos de regresión), por ejemplo, estadísticas .stackexchange.com / preguntas / 173660 / ...XYX
Tim
¿No sería el ejemplo que ha descrito extrapolación en lugar de interpolación?
bi_scholar
6

Las dos respuestas anteriores han explicado la relación entre la interpolación lineal y la regresión lineal (o incluso la interpolación general y la regresión polinómica). Pero una conexión importante es que una vez que se ajusta a un modelo de regresión, puede usarlo para interpolar entre los puntos de datos dados.

Michael R. Chernick
fuente
Entonces, cuando retrocedo, digamos, altura contra género, ¡puedo interpolar para encontrar la altura esperada de un mitad hombre, mitad mujer! Este fantástico ejemplo resalta la falla básica en esta respuesta, que es la suposición de que todos los regresores en un modelo de regresión deben ser variables continuas.
whuber
2
Mi respuesta se aplica cuando todas las variables predictoras son continuas ..
Michael R. Chernick
4

Esperemos que esto llegue bastante rápido con un simple ejemplo y visualización.

Supongamos que tiene los siguientes datos:

X  Y
1  6
10 15
20 25
30 35
40 45
50 55

Podemos usar la regresión para modelar Y como respuesta a X. Usando R: lm(y ~ x)

Los resultados son una intersección de 5 y un coeficiente para x de 1. Lo que significa que se puede calcular un Y arbitrario para una X dada como X + 5. Como imagen, puede ver esto de esta manera:

ingrese la descripción de la imagen aquí

Observe cómo si fue al eje X, en cualquier lugar a lo largo de él, y dibujó una línea hasta la línea ajustada, y luego dibujó una línea sobre el eje Y, puede obtener un valor, independientemente de si proporcioné o no un punto de valor para Y. La regresión es suavizar áreas sin datos al estimar la relación subyacente.

Fomite
fuente
2

la diferencia básica b / w Interpolación y regresión es la siguiente: Interpolación: supongamos que hay n puntos (por ejemplo: 10 puntos de datos), en la interpolación ajustaremos la curva que pasa por todos los puntos de datos (es decir, aquí 10 puntos de datos) con un grado del polinomio (número de puntos de datos -1; es decir, aquí es 9), donde, como en la regresión, no todos los puntos de datos solo son necesarios un conjunto de ellos para el ajuste de la curva.

generalmente el orden de la Interpolación y regresión será (1,2 o 3) si el orden es más de 3, se verán más oscilaciones en la curva.

usuario30339
fuente
2
Esto implica que la interpolación se basa en polinomios, pero hay varios otros métodos, como spline cúbico, Hermite cúbico por partes, vecino más cercano, etc.
Nick Cox
@Nick ¡Aunque tengas razón, es curioso que cada método que nombres en realidad esté basado en polinomios! Quizás el interpolador no polinomial más simple y mejor conocido es la ponderación de distancia inversa (IDW).
whuber
@whuber de acuerdo; si los polinomios se pueden aplicar con restricciones, entonces la mayoría de los métodos califican, por ejemplo, el vecino más cercano = constante por partes, etc.
Nick Cox
2

La regresión es el proceso de encontrar la línea de mejor ajuste [1]. La interpolación es el proceso de usar la línea de mejor ajuste para estimar el valor de una variable a partir del valor de otra, siempre que el valor que esté usando esté dentro del rango de sus datos. Si está fuera del rango, estaría utilizando Extrapolación [1].

[1] http://mathhelpforum.com/advanced-applied-math/182558-interpolation-vs-regression.html

Razan Paul
fuente
2
Esta respuesta no distingue la interpolación de la extrapolación. ¿Mantienes que son lo mismo? Por cierto, los foros de matemáticas (y libros de texto y documentos, incluso) generalmente no son buenas fuentes de información sobre cuestiones estadísticas, porque tienden a centrarse en significados matemáticos estrechos que, aunque correctos y útiles en aplicaciones puramente matemáticas, podrían no aplicarse más ampliamente .
whuber
1

Con la interpolación o el ajuste de spline, lo que obtenemos son datos numéricos (interpolados entre cada par de datos originales) de mayor tamaño, que cuando se grafican generan el efecto de una curva suave. En realidad, entre cada par de datos originales se ajusta un polinomio diferente, por lo tanto, toda la curva después de la interpolación es una curva continua por partes, donde cada pieza está formada por un polinomio diferente.

Si se busca una representación paramétrica de los datos numéricos originales, se debe hacer una regresión. También puede intentar ajustar un polinomio de alto grado a la spline. En cualquier caso, la representación será una aproximación. También puede verificar qué tan precisa es la aproximación.

Karnika
fuente
Parece que aún no tuvo la oportunidad de leer el comentario de Nick Cox , que señala que no todos los interpoladores son polinomios (locales).
whuber
0

Tanto la regresión como la interpolación se usan para predecir los valores de una variable (Y) para un valor dado de otra variable (X). En Regresión podemos predecir cualquier valor de la variable dependiente (Y) para un valor dado de la variable independiente (X) Incluso si está fuera del rango de valores tabulados, pero en el caso de la Interpolación solo podemos predecir los valores de la variable dependiente (Y) para un valor de variable independiente (X) que está dentro del rango de valores dados de X.

Kounteyo Roy Chowdhury
fuente
0

La interpolación es el proceso de ajustar una cantidad de puntos entre x = a y x = b exactamente a un polinomio de interpolación. La interpolación se puede usar para encontrar el valor aproximado (o el valor faltante) de y en el dominio x = [a, b] con mayor precisión que la técnica de regresión.

Por otro lado, la regresión es un proceso de ajuste de una cantidad de puntos a una curva que pasa a través de los puntos o cerca de ellos con un mínimo error al cuadrado. La regresión no aproximará el valor de y en el dominio x = [a, b] tan preciso como la interpolación, sin embargo, la regresión proporciona mejores predicciones que la interpolación para los valores de y en el dominio entre x = (- infinito, a) yx = ( b, + infinito).

En resumen, la interpolación proporciona una mejor precisión en el valor de y dentro del dominio de un rango x conocido, mientras que la regresión proporciona mejores predicciones de y en el dominio por debajo y más allá del rango conocido de x.

NFM Noor
fuente
3
No es una definición de interpolación que se use un polinomio. Otras funciones suaves podrían ser apropiadas.
Nick Cox
3
Hay otros problemas con sus reclamos. Por ejemplo, la regresión puede ser más precisa que la interpolación. La distinción estadística entre los dos procedimientos es bastante diferente de lo que representa: consulte las otras publicaciones en este hilo.
whuber