Extrapolación v. Interpolación

28

¿Cuál es la diferencia entre extrapolación e interpolación, y cuál es la forma más precisa de usar estos términos?

Por ejemplo, he visto una declaración en un documento usando interpolación como:

"El procedimiento interpola la forma de la función estimada entre los puntos bin"

Una oración que usa extrapolación e interpolación es, por ejemplo:

El paso anterior donde extrapolamos la función interpolada usando el método Kernel a las colas de temperatura izquierda y derecha.

¿Puede alguien proporcionar una manera clara y fácil de distinguirlos y guiar cómo usar estos términos correctamente con un ejemplo?

Frank Swanton
fuente
1
Una pregunta relacionada.
JM no es un estadístico el
1
Posible duplicado de ¿Qué tiene de malo la extrapolación?
usεr11852 dice Reinstate Monic
@ usεr11852 Creo que las dos preguntas cubren un terreno similar pero son diferentes porque esta pregunta por el contraste con la interpolación.
mkt - Restablece a Monica el
¿Se ha formalizado rigurosamente esta distinción entre interpolación y extrapolación de una manera generalmente acordada (por ejemplo, a través de cascos convexos) o estos términos todavía están sujetos al juicio y la interpretación humanos?
Nick Alger

Respuestas:

51

Para agregar una explicación visual a esto: consideremos algunos puntos que planea modelar.

ingrese la descripción de la imagen aquí

Parece que podrían describirse bien con una línea recta, por lo que ajusta una regresión lineal a ellos:

ingrese la descripción de la imagen aquí

Esta línea de regresión le permite interpolar (generar valores esperados entre sus puntos de datos) y extrapolar (generar valores esperados fuera del rango de sus puntos de datos). He destacado la extrapolación en rojo y la mayor región de interpolación en azul. Para ser claros, incluso las pequeñas regiones entre los puntos están interpoladas, pero solo estoy destacando la grande aquí.

ingrese la descripción de la imagen aquí

¿Por qué la extrapolación es generalmente más preocupante? Porque generalmente estás mucho menos seguro sobre la forma de la relación fuera del rango de tus datos. Considere lo que podría suceder cuando recopile algunos puntos de datos más (círculos huecos):

ingrese la descripción de la imagen aquí

Resulta que la relación no fue capturada bien con su relación hipotética después de todo. Las predicciones en la región extrapolada están muy lejos. Incluso si hubiera adivinado la función precisa que describe esta relación no lineal correctamente, sus datos no se extendieron en un rango suficiente para que pueda capturar bien la no linealidad, por lo que aún puede haber estado bastante lejos. Tenga en cuenta que este es un problema no solo para la regresión lineal, sino también para cualquier relación; es por eso que la extrapolación se considera peligrosa.

Las predicciones en la región interpolada también son incorrectas debido a la falta de no linealidad en el ajuste, pero su error de predicción es mucho menor. No hay garantía de que no tendrá una relación inesperada entre sus puntos (es decir, la región de interpolación), pero generalmente es menos probable.


Agregaré que la extrapolación no siempre es una idea terrible: si extrapola un poco fuera del rango de sus datos, probablemente no se equivocará (¡aunque es posible!). Los antiguos que no tenían un buen modelo científico del mundo no se habrían equivocado si pronosticaran que el sol volvería a salir al día siguiente y al día siguiente (aunque un día en el futuro, incluso esto fallará).

Y a veces, la extrapolación incluso puede ser de carácter informativo - por ejemplo, simples extrapolaciones a corto plazo del aumento exponencial de CO atmosférico han sido razonablemente precisa en los últimos decenios. Si fueras un estudiante que no tenía experiencia científica pero quería un pronóstico aproximado a corto plazo, esto te habría dado resultados bastante razonables. Pero cuanto más lejos de sus datos extrapola, más probable es que su predicción falle y falle desastrosamente, como se describe muy bien en este gran hilo: ¿Qué tiene de malo la extrapolación? (Gracias a @JMisnotastatistician por recordarme eso).2

Edición basada en comentarios: ya sea interpolando o extrapolando, siempre es mejor tener algo de teoría para fundamentar las expectativas. Si se debe realizar un modelado sin teoría , el riesgo de la interpolación suele ser menor que el de la extrapolación. Dicho esto, a medida que la brecha entre los puntos de datos aumenta en magnitud, la interpolación también se vuelve cada vez más cargada de riesgos.

mkt - Restablecer a Monica
fuente
55
Me gusta su respuesta, y la considero complementaria a la mía y en ningún sentido competir. Pero un pequeño punto, importante para algunos lectores, es que el rojo y el verde son difíciles de distinguir visualmente para muchas personas.
Nick Cox
1
@NickCox Buen punto, gracias por plantear eso: ahora he cambiado el esquema de color.
mkt - Restablecer Monica
1
@leftaroundabout Mi punto fue que el patrón de la curva de Keeling es tan fuerte que las extrapolaciones que ignoran la economía y la física siguen siendo razonablemente precisas en la escala de años a algunas décadas. Noté "las últimas décadas" precisamente porque esa es la escala de tiempo en la que hemos tenido mediciones de alta resolución. Este es un ejemplo en el que la extrapolación no lo habría llevado a equivocarse y creo que vale la pena señalarlo. Creo que se necesitaría una lectura errónea deliberada para afirmar que esta respuesta aboga por una extrapolación sin teoría.
mkt - Restablece a Monica el
1
Relacionado, di el "ejemplo de pavo" de Taleb en esta respuesta como una advertencia para las personas que usan extrapolación.
JM no es un estadístico el
1
La extrapolación es especialmente problemática cuando tienes un sobreajuste; con un modelo polinomial, por ejemplo, ir significativamente fuera del conjunto de datos dará como resultado la explosión del término de orden más alto.
Acumulación
21

En esencia, la interpolación es una operación dentro del soporte de datos , o entre puntos de datos conocidos existentes; la extrapolación está más allá del soporte de datos . En otras palabras, el criterio es: ¿dónde están los valores faltantes?

Una razón para la distinción es que la extrapolación suele ser más difícil de hacer bien, e incluso peligrosa, estadísticamente si no prácticamente. Eso no siempre es cierto: por ejemplo, las inundaciones de los ríos pueden abrumar los medios de medir la descarga o incluso la etapa (nivel vertical), abriendo un agujero en el registro medido. En esas circunstancias, la interpolación de la descarga o la etapa también es difícil y estar dentro del soporte de datos no ayuda mucho.

A la larga, el cambio cualitativo generalmente reemplaza al cambio cuantitativo. Alrededor de 1900 había mucha preocupación de que el crecimiento del tráfico de caballos hundiera las ciudades con excrementos no deseados. El exponencial en excremento fue reemplazado por el motor de combustión interna y sus diferentes exponenciales.

Una tendencia es una tendencia,
pero la pregunta es, ¿se doblará?
¿Alterará su curso a
través de alguna fuerza imprevista
y llegará a un final prematuro?

- Alexander Cairncross

Cairncross, A. 1969. Previsión económica. The Economic Journal , 79: 797-812. doi: 10.2307 / 2229792 (cita en p.797)

Nick Cox
fuente
1
Buena respuesta. La interpretación está ahí en el nombre: interpolación = suavizar dentro, extrapolación = suavizar más allá.
Nuclear Wang
1
OMI, esta es la respuesta correcta. El "soporte de datos" es el bit crucial; incluso si el punto al que desea ir es entre dos medidas, entonces aún puede estar fuera del soporte de datos. Por ejemplo, si tiene datos de prosperidad para personas de la antigüedad romana y de la época moderna, pero no en el medio, interpolar en la Edad Media sería muy problemático. Yo llamaría a esto extrapolación. OTOH, si tiene datos dispersos de manera dispersa pero uniforme en todo el período de tiempo, entonces la interpolación a un año en particular es mucho más plausible.
Leftaroundabout
1
@leftaroundabout El hecho de que la interpolación se pueda hacer sobre una gran brecha en los datos no hace que sea extrapolación. Está confundiendo la conveniencia del procedimiento con el procedimiento en sí. A veces, la interpolación también es una mala idea.
mkt - Restablece a Monica el
1
@mkt: Voy a ponerme del lado de la izquierda acerca de que su primer ejemplo podría considerarse extrapolación, ya que la interpolación frente a la extrapolación no está tan bien definida como podríamos pensar. Una simple transformación de variables puede convertir la interpolación en extrapolación. En su ejemplo, usar algo como funciones de distancia en lugar de tiempo bruto significa que mientras que en el tiempo bruto estamos interpolando, en distancias estamos extrapolando ... y usar tiempos crudos probablemente sería una mala idea.
Cliff AB
1
Esta es mi respuesta. No siento la necesidad de calificarlo. Una distinción amplia entre interpolación y extrapolación no descarta que sea un poco difícil decidir qué se está llevando a cabo. Si tiene un gran agujero en el medio del espacio de datos, el etiquetado podría ir en cualquier dirección. Como señalaron algunos expertos, el hecho de que el final del día y el comienzo de la noche se confundan entre sí no hace que la distinción entre día y noche sea inútil o inútil.
Nick Cox
12

TL; versión DR:

  • La interpolación se lleva a cabo entre los puntos de datos existentes.
  • Polación extra tiene lugar más allá de ellos.

Nemónico : en terpolación => en lado.

FWIW: El prefijo entre significa y extra significa más allá . Pensar también en inter carreteras estatales que van entre los estados, o adicionales terrestres desde más allá de nuestro planeta.

C.A.
fuente
1

Ejemplo:

Estudio: Desea ajustar una regresión lineal simple sobre la altura de la edad para niñas de 6 a 15 años. El tamaño de la muestra es 100, la edad se calcula por (fecha de medición - fecha de nacimiento) /365.25.

Después de la recopilación de datos, el modelo se ajusta y obtiene la estimación de la intersección b0 y la pendiente b1. significa que tenemos E (altura | edad) = b0 + b1 * edad.

Cuando desea la estatura promedio para los 13 años, descubre que no hay una niña de 13 años en su muestra de 100 niñas, una de ellas tiene 12.83 años y la otra es 13.24.

Ahora inserta age = 13 en la fórmula E (height | age) = b0 + b1 * age. Se llama interpolación porque 13 años de edad están cubiertos por el rango de sus datos utilizados para ajustar el modelo.

Si desea obtener la estatura promedio para los 30 años y usar esa fórmula, eso se llama extrapolación, porque los 30 años están fuera del rango de edad cubierto por sus datos.

Si el modelo tiene varias covariables, debe tener cuidado porque es difícil dibujar el borde que cubrieron los datos.

En estadística, no abogamos por la extrapolación.

usuario158565
fuente
"En estadística, no abogamos por la extrapolación". Una fracción importante del análisis de series de tiempo hace precisamente eso ...
Nick Cox