¿Cuál es la diferencia entre extrapolación e interpolación, y cuál es la forma más precisa de usar estos términos?
Por ejemplo, he visto una declaración en un documento usando interpolación como:
"El procedimiento interpola la forma de la función estimada entre los puntos bin"
Una oración que usa extrapolación e interpolación es, por ejemplo:
El paso anterior donde extrapolamos la función interpolada usando el método Kernel a las colas de temperatura izquierda y derecha.
¿Puede alguien proporcionar una manera clara y fácil de distinguirlos y guiar cómo usar estos términos correctamente con un ejemplo?
terminology
interpolation
extrapolation
Frank Swanton
fuente
fuente
Respuestas:
Para agregar una explicación visual a esto: consideremos algunos puntos que planea modelar.
Parece que podrían describirse bien con una línea recta, por lo que ajusta una regresión lineal a ellos:
Esta línea de regresión le permite interpolar (generar valores esperados entre sus puntos de datos) y extrapolar (generar valores esperados fuera del rango de sus puntos de datos). He destacado la extrapolación en rojo y la mayor región de interpolación en azul. Para ser claros, incluso las pequeñas regiones entre los puntos están interpoladas, pero solo estoy destacando la grande aquí.
¿Por qué la extrapolación es generalmente más preocupante? Porque generalmente estás mucho menos seguro sobre la forma de la relación fuera del rango de tus datos. Considere lo que podría suceder cuando recopile algunos puntos de datos más (círculos huecos):
Resulta que la relación no fue capturada bien con su relación hipotética después de todo. Las predicciones en la región extrapolada están muy lejos. Incluso si hubiera adivinado la función precisa que describe esta relación no lineal correctamente, sus datos no se extendieron en un rango suficiente para que pueda capturar bien la no linealidad, por lo que aún puede haber estado bastante lejos. Tenga en cuenta que este es un problema no solo para la regresión lineal, sino también para cualquier relación; es por eso que la extrapolación se considera peligrosa.
Las predicciones en la región interpolada también son incorrectas debido a la falta de no linealidad en el ajuste, pero su error de predicción es mucho menor. No hay garantía de que no tendrá una relación inesperada entre sus puntos (es decir, la región de interpolación), pero generalmente es menos probable.
Agregaré que la extrapolación no siempre es una idea terrible: si extrapola un poco fuera del rango de sus datos, probablemente no se equivocará (¡aunque es posible!). Los antiguos que no tenían un buen modelo científico del mundo no se habrían equivocado si pronosticaran que el sol volvería a salir al día siguiente y al día siguiente (aunque un día en el futuro, incluso esto fallará).
Y a veces, la extrapolación incluso puede ser de carácter informativo - por ejemplo, simples extrapolaciones a corto plazo del aumento exponencial de CO atmosférico han sido razonablemente precisa en los últimos decenios. Si fueras un estudiante que no tenía experiencia científica pero quería un pronóstico aproximado a corto plazo, esto te habría dado resultados bastante razonables. Pero cuanto más lejos de sus datos extrapola, más probable es que su predicción falle y falle desastrosamente, como se describe muy bien en este gran hilo: ¿Qué tiene de malo la extrapolación? (Gracias a @JMisnotastatistician por recordarme eso).2
Edición basada en comentarios: ya sea interpolando o extrapolando, siempre es mejor tener algo de teoría para fundamentar las expectativas. Si se debe realizar un modelado sin teoría , el riesgo de la interpolación suele ser menor que el de la extrapolación. Dicho esto, a medida que la brecha entre los puntos de datos aumenta en magnitud, la interpolación también se vuelve cada vez más cargada de riesgos.
fuente
En esencia, la interpolación es una operación dentro del soporte de datos , o entre puntos de datos conocidos existentes; la extrapolación está más allá del soporte de datos . En otras palabras, el criterio es: ¿dónde están los valores faltantes?
Una razón para la distinción es que la extrapolación suele ser más difícil de hacer bien, e incluso peligrosa, estadísticamente si no prácticamente. Eso no siempre es cierto: por ejemplo, las inundaciones de los ríos pueden abrumar los medios de medir la descarga o incluso la etapa (nivel vertical), abriendo un agujero en el registro medido. En esas circunstancias, la interpolación de la descarga o la etapa también es difícil y estar dentro del soporte de datos no ayuda mucho.
A la larga, el cambio cualitativo generalmente reemplaza al cambio cuantitativo. Alrededor de 1900 había mucha preocupación de que el crecimiento del tráfico de caballos hundiera las ciudades con excrementos no deseados. El exponencial en excremento fue reemplazado por el motor de combustión interna y sus diferentes exponenciales.
fuente
TL; versión DR:
Nemónico : en terpolación => en lado.
FWIW: El prefijo entre significa y extra significa más allá . Pensar también en inter carreteras estatales que van entre los estados, o adicionales terrestres desde más allá de nuestro planeta.
fuente
Ejemplo:
Estudio: Desea ajustar una regresión lineal simple sobre la altura de la edad para niñas de 6 a 15 años. El tamaño de la muestra es 100, la edad se calcula por (fecha de medición - fecha de nacimiento) /365.25.
Después de la recopilación de datos, el modelo se ajusta y obtiene la estimación de la intersección b0 y la pendiente b1. significa que tenemos E (altura | edad) = b0 + b1 * edad.
Cuando desea la estatura promedio para los 13 años, descubre que no hay una niña de 13 años en su muestra de 100 niñas, una de ellas tiene 12.83 años y la otra es 13.24.
Ahora inserta age = 13 en la fórmula E (height | age) = b0 + b1 * age. Se llama interpolación porque 13 años de edad están cubiertos por el rango de sus datos utilizados para ajustar el modelo.
Si desea obtener la estatura promedio para los 30 años y usar esa fórmula, eso se llama extrapolación, porque los 30 años están fuera del rango de edad cubierto por sus datos.
Si el modelo tiene varias covariables, debe tener cuidado porque es difícil dibujar el borde que cubrieron los datos.
En estadística, no abogamos por la extrapolación.
fuente