¿Qué hay de malo con la extrapolación?

68

Recuerdo estar sentado en cursos de estadísticas como una audiencia de pregrado sobre por qué la extrapolación era una mala idea. Además, hay una variedad de fuentes en línea que comentan sobre esto. También hay una mención de esto aquí .

¿Alguien puede ayudarme a entender por qué la extrapolación es una mala idea? Si es así, ¿cómo es que las técnicas de pronóstico no son estadísticamente inválidas?

UN CHICO
fuente
3
@Firebug Mark Twain tenía algo que decir al respecto. El pasaje relevante se cita cerca del final de mi respuesta en stats.stackexchange.com/a/24649/919 .
whuber
1
@whuber Supongo que eso no es exactamente una extrapolación pensando en eso ahora. Digamos, entrenamos y validamos adecuadamente un algoritmo para predecir datos una semana después de la función. Haciendo el muestreo correcto (y sintonización, si hay hiperparámetros para sintonizar), entonces no puedo ver qué pasa si eso, tiene una respuesta y también debe conocer la confianza de esa respuesta. Ahora, si entrena su algoritmo semana a semana, no puede esperar predecir con precisión un año en el futuro. Perdón por la posible confusión.
Firebug
77
@Firebug No es necesario disculparse: sus comentarios contienen información útil y aclaratoria. A medida que los leo, sugieren que "extrapolar" puede tener múltiples interpretaciones en un entorno de pronóstico. Una es que implica una "extrapolación" de tiempo. Pero cuando observa modelos de series temporales estándar, especialmente aquellos en los que el tiempo no es una covariable explícita, predicen valores futuros en términos de valores anteriores . Cuando esos valores anteriores permanecen dentro de los rangos de valores anteriores pasados, ¡ el modelo no realiza ninguna extrapolación! Ahí puede estar una resolución de la aparente paradoja.
whuber
77
xkcd.com/605
user253751
2
Estoy decepcionado de cuánto tiempo tardó en aparecer el xkcd obligatorio
Duncan X Simpson

Respuestas:

89

A menudo se usa un modelo de regresión para la extrapolación, es decir, predecir la respuesta a una entrada que se encuentra fuera del rango de los valores de la variable predictora utilizada para ajustarse al modelo. El peligro asociado con la extrapolación se ilustra en la siguiente figura. gráfico que muestra la línea extrapolada que continúa hacia arriba donde disminuye el valor "verdadero"

El modelo de regresión es "por construcción" un modelo de interpolación, y no debe usarse para la extrapolación, a menos que esté debidamente justificado.

Kostia
fuente
1
Este es un terrible ejemplo contra la extrapolación. Los datos de ajuste de la línea de regresión recta son mucho mejores que su verdadera función con curvas.
horaceT
9
"Los datos de ajuste de la línea de regresión recta son mucho mejores que su verdadera función curvilínea" Esta afirmación es falsa. El RSS para la función de regresión verdadera es más pequeño que el RSS para la línea de regresión simple,
Kostia
Punto tomado y usted puede (debe) tener razón. Pero a juzgar por el lote de puntos, no hay forma de inferir la verdadera función.
horaceT
27
Exactamente. Y por eso la extrapolación puede ser una mala idea.
Kostia
"El modelo de regresión es" por construcción "un modelo de interpolación" -> Creo que podemos tener exactamente el mismo problema con la interpolación (incluso si es menos probable que ocurra)
Metariat
88

Este cómic xkcd lo explica todo.

cómic xkcd

Utilizando los puntos de datos que tiene Cueball (el hombre del palo), ha extrapolado que la mujer tendrá "cuatro docenas" de esposos para fines del próximo mes, y utilizó esta extrapolación para llegar a la conclusión de comprar el pastel de bodas a granel.

Edición 3: Para aquellos de ustedes que dicen "no tiene suficientes puntos de datos", aquí hay otro cómic de xkcd :

cómic xkcd

Aquí, el uso de la palabra "sostenible" a lo largo del tiempo se muestra en un diagrama de semi-registro, y extrapolando los puntos de datos, recibimos estimaciones irracionales de la frecuencia con la que la palabra "sostenible" ocurrirá en el futuro.

Edición 2: para aquellos de ustedes que dicen "también necesitan todos los puntos de datos pasados", otro cómic de xkcd: cómic xkcd

Aquí, tenemos todos los puntos de datos anteriores, pero no podemos predecir con precisión la resolución de Google Earth. Tenga en cuenta que este es un gráfico semi-log también.

Editar: a veces, incluso las correlaciones más fuertes (r = .9979 en este caso) son simplemente erróneas.


Si extrapola sin otra evidencia de apoyo, también violar la correlación no implica causalidad ; Otro gran pecado en el mundo de las estadísticas.

Sin embargo, si extrapola X con Y, debe asegurarse de que puede predecir con precisión (lo suficiente para satisfacer sus requisitos) X con solo Y. Casi siempre, existen múltiples factores que afectan el X.

Me gustaría compartir un enlace a otra respuesta que lo explique en las palabras de Nassim Nicholas Taleb.

noɥʇʎԀʎzɐɹƆ
fuente
14
xkcd tiene una broma sobre todos los posibles problemas de matemática / estadística que uno puede encontrar, ¿no?
Ander Biguri
24
Esta idea bien podría usarse como argumento contra la interpolación: "anoche tuviste 0,5 maridos".
JiK
3
@JiK Si todo lo que sabes es que ahora tiene uno, y hace dos días que no tenía ninguno, eso no es una mala estimación ;-)
Dennis Jaheruddin
9
Sostenible sostenible Sostenible sostenible sostenible sostenible Sostenible sostenible. en.wikipedia.org/wiki/…
Meni Rosenfeld
1
más xkcd, gente!
noɥʇʎԀʎzɐɹƆ
24

"La predicción es muy difícil, especialmente si se trata del futuro". La cita se atribuye a muchas personas de alguna forma . Restringiré en la siguiente "extrapolación" a "predicción fuera del rango conocido", y en un entorno unidimensional, extrapolación de un pasado conocido a un futuro desconocido.

Entonces, ¿qué tiene de malo la extrapolación? Primero, no es fácil modelar el pasado . En segundo lugar, es difícil saber si un modelo del pasado puede usarse para el futuro . Detrás de ambas afirmaciones se encuentran preguntas profundas sobre la causalidad o la ergodicidad, la suficiencia de variables explicativas, etc. que dependen bastante de los casos. Lo que está mal es que es difícil elegir un único esquema de extrapolación que funcione bien en diferentes contextos, sin mucha información adicional.

Este desajuste genérico se ilustra claramente en el conjunto de datos del cuarteto Anscombe que se muestra a continuación. La regresión lineal también es (fuera del rango de coordenadas ) una instancia de extrapolación. La misma línea regresa cuatro conjuntos de puntos, con las mismas estadísticas estándar. Sin embargo, los modelos subyacentes son bastante diferentes.x

Cuarteto Anscombe

Sin embargo, el pronóstico puede rectificarse hasta cierto punto. Además de otras respuestas, un par de ingredientes pueden ayudar a la extrapolación práctica:

  1. Puede ponderar las muestras según su distancia (índice ) a la ubicación donde desea extrapolar. Por ejemplo, use una función creciente (con ), como ponderación o suavizado exponencial , o ventanas deslizantes de muestras, para dar menos importancia a los valores más antiguos.p f p ( n ) p nnpfp(n)pn
  2. Puede usar varios modelos de extrapolación y combinarlos o seleccionar el mejor ( Combinando pronósticos , J. Scott Armstrong, 2001). Recientemente, ha habido una serie de trabajos sobre su combinación óptima (puedo proporcionar referencias si es necesario).

Recientemente, participé en un proyecto para extrapolar valores para la comunicación de subsistemas de simulación en un entorno en tiempo real. El dogma en este dominio era que la extrapolación puede causar inestabilidad. De hecho, nos dimos cuenta de que la combinación de los dos ingredientes anteriores era muy eficiente, sin inestabilidad notable (sin una prueba formal todavía, y actualmente en revisión ). Y la extrapolación funcionó con polinomios simples, con una carga computacional muy baja, la mayoría de las operaciones se calcularon de antemano y se almacenaron en tablas de búsqueda.

Finalmente, como la extrapolación sugiere un dibujo divertido, el siguiente es el efecto hacia atrás de la regresión lineal:

Diversión con amor y regresión lineal.

Laurent Duval
fuente
+1 Buena respuesta. Según este sitio web , parece poco probable que Bohr lo haya dicho. Parece más probable que sea un proverbio danés poco común pero genérico.
usεr11852 dice Reinstate Monic
@ usεr11852 ¿Es poco probable que "haya dicho eso"? Por eso dije "atribuido", ¿debería ser más cauteloso?
Laurent Duval
2
Nunca dije la parte de siempre . Hice este comentario porque dado que el dicho parece mucho más probable que sea un proverbio danés, atribuirlo a un danés en particular (extremadamente emblemático) parece un poco excesivo de facturación, especialmente dado que no hay registros de que Bohr lo haya dicho. ¡El autor original podría ser un pescador sin nombre que comenta sobre la captura de mañana! ¡Estoy alentando al pequeño aquí! : D
usεr11852 dice Reinstate Monic
2
Muy difícil de modelar leyendas de citas pasadas también.
Laurent Duval
3
Ciertamente, la pregunta usa ambas palabras: el punto completo es si "previsión" debe considerarse una forma de "extrapolación". Según sus comentarios introductorios, parece definir la extrapolación como el uso del pasado para "modelar el futuro". Hasta que ofrezca definiciones claras y distintas de cada uno, su respuesta podría ser mal entendida.
whuber
17

Aunque el ajuste de un modelo puede ser " bueno ", la extrapolación más allá del rango de los datos debe tratarse con escepticismo. La razón es que, en muchos casos, la extrapolación (por desgracia e inevitablemente) se basa en suposiciones no comprobables sobre el comportamiento de los datos más allá de su soporte observado.

Al extrapolar, uno debe hacer dos juicios: Primero, desde una perspectiva cuantitativa, ¿qué tan válido es el modelo fuera del rango de los datos? En segundo lugar, desde una perspectiva cualitativa, ¿cuán plausible es que un punto que se encuentra fuera del rango de muestra observado sea un miembro de la población que asumimos para la muestra? Debido a que ambas preguntas implican un cierto grado de ambigüedad, la extrapolación también se considera una técnica ambigua. Si tiene razones para aceptar que estos supuestos son válidos, la extrapolación suele ser un procedimiento de inferencia válido.xout

Una advertencia adicional es que muchas técnicas de estimación no paramétricas no permiten la extrapolación de forma nativa. Este problema es particularmente notable en el caso de suavizado de estrías donde no hay más nudos para anclar la ranura ajustada.

Permítanme enfatizar que la extrapolación está lejos del mal. Por ejemplo, los métodos numéricos ampliamente utilizados en Estadística (por ejemplo, el proceso delta-cuadrado de Aitken y la Extrapolación de Richardson ) son esencialmente esquemas de extrapolación basados ​​en la idea de que el comportamiento subyacente de la función analizada para los datos observados permanece estable en todo el soporte de la función.

usεr11852 dice Reinstate Monic
fuente
Aunque es posible escribir salvaguardas para Wynn (la generalización computacionalmente útil de Aitken ) y la extrapolación de Richardson, puede suceder y sucede que las suposiciones subyacentes a estos algoritmos no están muy satisfechas con las secuencias que se le proporcionan. Cuando se usan estos métodos de extrapolación con secuencias de procedencia incierta, el lo suficientemente paranoico generalmente tendrá a mano dos o más de estos métodos de aceleración de convergencia para las pruebas, y solo confiará en los resultados si al menos dos de estos métodos conceptualmente muy diferentes están de acuerdo en sus resultados . Δ 2εΔ2
JM no es un estadístico
15

Contrariamente a otras respuestas, diría que no hay nada de malo en la extrapolación, siempre y cuando no se use de manera inconsciente. Primero, observe que la extrapolación es :

El proceso de estimar, más allá del rango de observación original, el valor de una variable sobre la base de su relación con otra variable.

... por lo que es un término muy amplio y muchos métodos diferentes que van desde la extrapolación lineal simple hasta la regresión lineal, la regresión polinómica o incluso algunos métodos avanzados de pronóstico de series temporales se ajustan a dicha definición. De hecho, la extrapolación, la predicción y el pronóstico están estrechamente relacionados. En estadística a menudo hacemos predicciones y pronósticos . Esto también es lo que dice el enlace al que se refiere:

Desde el primer día de estadísticas nos enseñan que la extrapolación es un gran no-no, pero eso es exactamente lo que es el pronóstico.

Muchos métodos de extrapolación se utilizan para hacer predicciones, además, a menudo algunos métodos simples funcionan bastante bien con muestras pequeñas, por lo que pueden preferirse los complicados. El problema es, como se observó en otras respuestas, cuando utiliza el método de extrapolación de forma incorrecta.

Por ejemplo, muchos estudios muestran que la edad de iniciación sexual disminuye con el tiempo en los países occidentales. Eche un vistazo a una trama a continuación sobre la edad de la primera relación sexual en los EE. UU. Si utilizamos a ciegas la regresión lineal para predecir la edad de la primera relación sexual, podríamos predecir que irá por debajo de cero en algunos años (de acuerdo con el primer matrimonio y el primer nacimiento en algún momento después de la muerte) ... Sin embargo, si necesita hacer pronóstico para un año antes, entonces supongo que la regresión lineal conduciría a predicciones bastante precisas a corto plazo para la tendencia.

ingrese la descripción de la imagen aquí

(fuente guttmacher.org )

Todos los modelos están equivocados , la extrapolación también está mal, ya que no le permitiría hacer predicciones precisas. Como otras herramientas matemáticas / estadísticas, le permitirá hacer predicciones aproximadas . La extensión de cuán precisos serán depende de la calidad de los datos que tenga, utilizando métodos adecuados para su problema, las suposiciones que hizo al definir su modelo y muchos otros factores. Pero esto no significa que no podamos usar tales métodos. Podemos, pero debemos recordar sus limitaciones y debemos evaluar su calidad para un problema determinado.

Tim
fuente
44
Cuando los datos que utiliza para la regresión finalizan a principios de la década de 1980, probablemente pueda probar fácilmente cuánto tiempo más allá de esa fecha funcionaría la extrapolación.
gerrit
@gerrit Estoy de acuerdo, pero desafortunadamente no pude encontrar los datos apropiados. Pero si alguien pudiera señalarme, me complacería actualizar mi respuesta para tal comparación.
Tim
En este caso, la extrapolación falla, dado que la edad del primer sexo ha aumentado en los últimos años. (Pero los datos para esto siempre retrasan el año de nacimiento en un par de décadas, por razones que deberían ser obvias.)
David Manheim
13

Me gusta bastante el ejemplo de Nassim Taleb (que fue una adaptación de un ejemplo anterior de Bertrand Russell):

Considere un pavo que se alimente todos los días. Cada alimentación reafirmará la creencia de las aves de que es la regla general de la vida ser alimentado todos los días por miembros amigables de la raza humana "velando por sus mejores intereses", como diría un político. En la tarde del miércoles antes del Día de Acción de Gracias, algo inesperado le sucederá al pavo. Incurrirá en una revisión de creencia.

Algunos análogos matemáticos son los siguientes:

  • El conocimiento de los primeros coeficientes de Taylor de una función no siempre garantiza que los coeficientes siguientes sigan su supuesto patrón.

  • El conocimiento de las condiciones iniciales de una ecuación diferencial no siempre garantiza el conocimiento de su comportamiento asintótico (por ejemplo, las ecuaciones de Lorenz, a veces distorsionadas en el llamado "efecto mariposa")

Aquí hay un buen hilo MO sobre el asunto.

J. M. no es un estadístico
fuente
3
... y, por supuesto, Taleb tiene que señalar la lección moral: "no seas un pavo"! En este contexto: no seas un extrapolador descuidado y no sucumbas al pecado de la arrogancia.
JM no es un estadístico
@ uoɥʇʎPʎzɐɹC, no lo estaba pidiendo, ¡pero gracias!
JM no es un estadístico
Realmente no tengo un uso para la reputación validada cruzada, y nadie vio su respuesta y fue realmente bueno. ¡Disfrutar!
noɥʇʎԀʎzɐɹƆ
12

Medita la siguiente historia, si quieres.

También recuerdo estar sentado en un curso de Estadística, y el profesor nos dijo que la extrapolación era una mala idea. Luego, durante la siguiente clase, nos dijo que era una mala idea otra vez; de hecho, lo dijo dos veces.

Estuve enfermo durante el resto del semestre, pero estaba seguro de que no podía haber perdido mucho material, porque la semana pasada el tipo seguramente no había estado haciendo nada más que decirle a la gente una y otra vez que la extrapolación era una mala idea. .

Por extraño que parezca, no obtuve una puntuación muy alta en el examen.

einpoklum - reinstalar a Monica
fuente
66
La pregunta es "¿qué hay de malo en la extrapolación?". Estamos buscando respuestas que den razones por las cuales la extrapolación podría ser una mala idea.
Robert Long
8
@RobertLong: En realidad es una especie de respuesta meta / broma, y ​​bastante similar a xkcd.com/605 , aunque quizás sea mejor como comentario que como respuesta.
Neil Slater
@NeilSlater: Deberías haber publicado tu comentario como respuesta ... :)
usεr11852 dice Reinstate Monic el
@RobertLong: Este es ese tipo de respuesta. Simplemente tiene la forma de una parábola.
einpoklum - reinstalar a Mónica el
2
No está claro que su modelo sea exponencial.
gerrit
6

La pregunta no es solo estadística, también es epistemológica. La extrapolación es una de las formas en que aprendemos sobre la naturaleza, es una forma de inducción . Digamos que tenemos datos para la conductividad eléctrica de un material en un rango de temperaturas de 0 a 20 grados Celsius, ¿qué podemos decir acerca de la conductividad a 40 grados Celsius?

Está estrechamente relacionado con la inferencia de muestra pequeña: ¿qué podemos decir sobre toda la población a partir de las mediciones realizadas en una muestra pequeña? Esto fue iniciado por Gosset como Guiness , quien ideó las distribuciones t de Student. Antes de él, los estadísticos no se molestaron en pensar en muestras pequeñas suponiendo que el tamaño de la muestra siempre puede ser grande. Estaba en Guinnes y tuvo que lidiar con muestras de cerveza para decidir qué hacer con todo el lote de cerveza para enviar.

Entonces, en la práctica (negocios), ingeniería y ciencia siempre tenemos que extrapolar de alguna manera. Podría ser extrapolar muestras pequeñas a grandes, o desde un rango limitado de condiciones de entrada a un conjunto más amplio de condiciones, desde lo que está sucediendo en el acelerador hasta lo que sucedió con un agujero negro a miles de millones de millas, etc. Sin embargo, es especialmente importante en la ciencia , como realmente aprendemos al estudiar las discrepancias entre nuestras estimaciones de extrapolación y las mediciones reales. A menudo encontramos nuevos fenómenos cuando las discrepancias son grandes o consistentes.

Por lo tanto, digo que no hay problema con la extrapolación. Es algo que tenemos que hacer todos los días. Es dificil.

Aksakal
fuente
4

La extrapolación en sí no es necesariamente malvada, pero es un proceso que se presta a conclusiones que son más irracionales de lo que se llega con la interpolación.

  • La extrapolación a menudo se realiza para explorar valores bastante alejados de la región muestreada. Si estoy muestreando 100 valores de 0 a 10, y luego extrapolo solo un poco, simplemente a 11, mi nuevo punto probablemente esté 10 veces más lejos de cualquier punto de datos que cualquier interpolación. Esto significa que hay mucho más espacio para que una variable se salga de control (cualitativamente). Tenga en cuenta que intencionalmente elegí solo una extrapolación menor. Puede empeorar mucho
  • La extrapolación se debe hacer con ajustes de curva que fueron diseñados para hacer la extrapolación. Por ejemplo, muchos ajustes polinómicos son muy pobres para la extrapolación porque los términos que se comportan bien por encima del rango muestreado pueden explotar una vez que lo abandona. Una buena extrapolación depende de una "buena suposición" de lo que sucede fuera de la región muestreada. Lo que me lleva a ...
  • A menudo es extremadamente difícil usar la extrapolación debido a la presencia de transiciones de fase. Muchos procesos en los que se puede extrapolar tienen propiedades decididamente no lineales que no están suficientemente expuestas sobre la región muestreada. La aeronáutica en torno a la velocidad del sonido es un excelente ejemplo. Muchas extrapolaciones de velocidades más bajas se desmoronan a medida que alcanza y excede la velocidad de transferencia de información en el aire. Esto también ocurre con bastante frecuencia con las ciencias blandas, donde la política en sí misma puede afectar el éxito de la política. La economía keynesiana extrapoló cómo se comportaría la economía con diferentes niveles de inflación y predijo el mejor resultado posible. Desafortunadamente, hubo efectos de segundo orden y el resultado no fue la prosperidad económica, sino algunas de las tasas de inflación más altas que Estados Unidos ha visto.
  • A la gente le gustan las extrapolaciones. En términos generales, la gente realmente quiere que alguien mire dentro de una bola de cristal y les cuente el futuro. Aceptarán extrapolaciones sorprendentemente malas simplemente porque es toda la información que tienen. Esto puede no hacer que la extrapolación en sí sea mala, per se, pero definitivamente es algo que uno debe tener en cuenta al usarla.

Para lo último en extrapolación, considere el Proyecto Manhattan. Los físicos allí se vieron obligados a trabajar con pruebas a escala extremadamente pequeña antes de construir la cosa real. Simplemente no tenían suficiente uranio para desperdiciar en las pruebas. Hicieron lo mejor que pudieron, y fueron inteligentes. Sin embargo, cuando ocurrió la prueba final, se decidió que cada científico decidiría qué tan lejos de la explosión querían estar cuando estallara. Hubo diferencias de opinión sustanciales sobre cuán lejos estaba "seguro" porque todos los científicos sabían que estaban extrapolando muy lejos de sus pruebas. Incluso hubo una consideración no trivial de que podrían incendiar la atmósfera con la bomba nuclear, ¡un problema que también se detuvo con una extrapolación sustancial!

Cort Ammon
fuente
3

Muchas buenas respuestas aquí, solo quiero intentar y sintetizar lo que veo como el núcleo del problema: es peligroso extrapolar más allá de ese proceso de generación de datos que dio lugar a la muestra de estimación. Esto a veces se llama un "cambio estructural".

El pronóstico viene con suposiciones, la principal es que el proceso de generación de datos es (tan cerca como que no hace una diferencia significativa) el mismo que generó la muestra (a excepción de las variables rhs, cuyos cambios explícitamente se tienen en cuenta en el modelo) . Si ocurre un cambio estructural (es decir, Acción de Gracias en el ejemplo de Taleb), todas las apuestas están canceladas.

Jason
fuente