¿Cuál es la justificación estadística de la interpolación?

Supongamos que tenemos dos puntos (la siguiente figura: círculos negros) y queremos encontrar un valor para un tercer punto entre ellos (cruz). De hecho, vamos a estimarlo en función de nuestros resultados experimentales, los puntos negros. El caso más simple es dibujar una línea y luego encontrar el valor (es decir, interpolación lineal). Si tuviéramos puntos de apoyo, por ejemplo, como puntos marrones en ambos lados, preferimos obtener beneficios de ellos y ajustar una curva no lineal (curva verde).

La pregunta es cuál es el razonamiento estadístico para marcar la cruz roja como la solución. ¿Por qué otras cruces (por ejemplo, las amarillas) no son respuestas donde podrían estar? ¿Qué tipo de inferencia o (?) Nos empuja a aceptar el rojo?

Desarrollaré mi pregunta original basada en las respuestas obtenidas para esta pregunta muy simple.

ingrese la descripción de la imagen aquí

estimation interpolation Desarrollador
fuente

Esta es una pregunta muy bien planteada e interesante. Es posible que desee distinguir entre la interpolación de series de tiempo y otras formas de interpolación (como splining o interpolación espacial), debido a la direccionalidad inherente de las series de tiempo.

whuber

Mi agradecimiento va a este comentario muy motivador.

Desarrollador

Consulte también ¿Cómo funciona la interpolación de Kriging? .

Scortchi - Restablece a Monica

Respuestas:

Cualquier forma de ajuste de funciones, incluso las no paramétricas (que generalmente hacen suposiciones sobre la suavidad de la curva involucrada), implica suposiciones y, por lo tanto, un salto de fe.

La antigua solución de la interpolación lineal es una que 'simplemente funciona' cuando los datos que tiene son muy finos 'lo suficiente' (si observa un círculo lo suficientemente cerca, también se ve plano, solo pregúntele a Columbus), y fue factible incluso antes de la era de la computadora (que no es el caso para muchas soluciones de splines modernas). Tiene sentido asumir la creencia de que la función 'continuará en la misma materia (es decir, lineal)' entre los dos puntos, pero no hay una razón a priori para esto (salvo el conocimiento sobre los conceptos en cuestión).

Se vuelve rápidamente claro cuando tiene tres (o más) puntos no colineales (como cuando agrega los puntos marrones arriba), que la interpolación lineal entre cada uno de ellos pronto involucrará esquinas afiladas en cada uno de ellos, lo que generalmente no es deseado. Ahí es donde intervienen las otras opciones.

Sin embargo, sin mayor conocimiento del dominio, no hay forma de afirmar con certeza que una solución es mejor que la otra (para esto, tendría que saber cuál es el valor de los otros puntos, lo que anula el propósito de ajustar la función en el primer lugar).

En el lado positivo, y tal vez más relevante para su pregunta, bajo 'condiciones de regularidad' (lea: supuestos : si sabemos que la función es, por ejemplo, suave), se puede demostrar que tanto la interpolación lineal como las otras soluciones populares son 'razonables' aproximaciones Aún así: requiere supuestos, y para estos, generalmente no tenemos estadísticas.

Nick Sabbe
fuente

Esta es una buena respuesta y es mi candidato para ser marcado como la respuesta. Comprendí que no hay justificación estadística para una elección tan común, ¿verdad?

Desarrollador

De hecho, creo que no hay uno, no.

Nick Sabbe

Parte de la literatura (que involucra competencias para interpolar muestras de conjuntos de datos conocidos) valida parcialmente esta respuesta, pero no del todo. Se puede aprender mucho sobre la correlación espacial de los datos a través del análisis estadístico de los datos solo, sin ninguna "condición de regularidad". Lo que se necesita es un modelo de los datos como una muestra de una realización de un proceso estocástico junto con (1) una hipótesis ergódica y (en la mayoría de los casos) (2) algún tipo de suposición de estacionariedad. En este marco, la interpolación se convierte en predicción de una expectativa, pero incluso se permiten curvas no diferenciables.

whuber

@whuber: Estoy fuera de mi zona de confort aquí, pero todo después de "condiciones de regularidad" en su comentario se lee como una cantidad bastante sólida de suposiciones (la estacionalidad probablemente equivaldría a una condición de regularidad, ¿no?). En realidad, creo que dependerá de si el tamaño de su muestra es grande con respecto a las irregularidades en la forma funcional ... ¿Puede dar una referencia de un documento o los gustos donde este no sea el caso?

Nick Sabbe

¡No puedes hacer nada sin suposiciones, Nick! Pero la regularidad (como la suavidad de la función) no es necesaria: se puede deducir de los datos, al menos en la escala a la que se muestrea la función. (La estacionariedad es una suposición mucho más leve que la suavidad). Está en lo cierto al decir que se necesitan muestras más grandes, pero se puede aprender mucho en 2D incluso con 30-50 ubicaciones de muestra bien elegidas. La literatura es grande; Por ejemplo, la mayoría de los temas de Geología Matemática están dedicados a esto. Para una introducción rigurosa, vea Estadísticas espaciales

whuber

Puede calcular la ecuación lineal para la línea de mejor ajuste (p. Ej. Y = 0.4554x + 0.7525), sin embargo, esto solo funcionaría si hubiera un eje etiquetado. Sin embargo, esto no le daría la respuesta exacta solo la más adecuada en relación con los otros puntos.

Claire Winterbourne
fuente

Pero la regresión no es interpolación .

Scortchi - Restablece a Monica

@Scortchi Creo que la regresión puede entenderse como interpolación. Sin embargo, proponer la regresión como una solución no responde a la pregunta, que nos pide que expliquemos por qué cualquier tipo de interpolación es justificable (e implícitamente nos invita a describir los supuestos necesarios para justificarlo).

Whuber

@whuber: Gracias. Estaba pensando en la interpolación, al menos prototípicamente, como unir los puntos: stats.stackexchange.com/a/33662/17230 .

Scortchi - Restablece a Monica

@Scortchi Ese hilo aborda principalmente el concepto matemático de interpolación en una tabla. En un comentario a su pregunta, señalé la comprensión estadística convencional de la interpolación, que es sutilmente diferente. La regresión funciona en ambos mundos: una función de regresión puede servir como un interpolador matemático (para una función bien definida que se muestrea en una tabla), así como un interpolador estadístico (por medio de predicciones estadísticas de valores de un proceso estocástico condicional en un número finito de valores derivados de ese proceso).

Whuber

@Cagdas ¡La única forma de reconstruir perfectamente una función a partir de datos finitos es proporcionar suficientes restricciones sobre la función para que solo haya un candidato condicional en los datos! En particular, dado el número de puntos de datos

n

$n$ y dados los soportes de la función (pero independientemente de sus valores en esos soportes), el conjunto de funciones posibles debe ser una variedad de dimensión finita en la mayoría de los casos

n

$n$ .

whuber