Recuerdo estar sentado en cursos de estadísticas como una audiencia de pregrado sobre por qué la extrapolación era una mala idea. Además, hay una variedad de fuentes en línea que comentan sobre esto. También hay una mención de esto aquí .
¿Alguien puede ayudarme a entender por qué la extrapolación es una mala idea? Si es así, ¿cómo es que las técnicas de pronóstico no son estadísticamente inválidas?
regression
time-series
forecasting
UN CHICO
fuente
fuente
Respuestas:
A menudo se usa un modelo de regresión para la extrapolación, es decir, predecir la respuesta a una entrada que se encuentra fuera del rango de los valores de la variable predictora utilizada para ajustarse al modelo. El peligro asociado con la extrapolación se ilustra en la siguiente figura.
El modelo de regresión es "por construcción" un modelo de interpolación, y no debe usarse para la extrapolación, a menos que esté debidamente justificado.
fuente
Este cómic xkcd lo explica todo.
Utilizando los puntos de datos que tiene Cueball (el hombre del palo), ha extrapolado que la mujer tendrá "cuatro docenas" de esposos para fines del próximo mes, y utilizó esta extrapolación para llegar a la conclusión de comprar el pastel de bodas a granel.
Edición 3: Para aquellos de ustedes que dicen "no tiene suficientes puntos de datos", aquí hay otro cómic de xkcd :
Aquí, el uso de la palabra "sostenible" a lo largo del tiempo se muestra en un diagrama de semi-registro, y extrapolando los puntos de datos, recibimos estimaciones irracionales de la frecuencia con la que la palabra "sostenible" ocurrirá en el futuro.
Edición 2: para aquellos de ustedes que dicen "también necesitan todos los puntos de datos pasados", otro cómic de xkcd:
Aquí, tenemos todos los puntos de datos anteriores, pero no podemos predecir con precisión la resolución de Google Earth. Tenga en cuenta que este es un gráfico semi-log también.
Editar: a veces, incluso las correlaciones más fuertes (r = .9979 en este caso) son simplemente erróneas.
Si extrapola sin otra evidencia de apoyo, también violar la correlación no implica causalidad ; Otro gran pecado en el mundo de las estadísticas.
Sin embargo, si extrapola X con Y, debe asegurarse de que puede predecir con precisión (lo suficiente para satisfacer sus requisitos) X con solo Y. Casi siempre, existen múltiples factores que afectan el X.
Me gustaría compartir un enlace a otra respuesta que lo explique en las palabras de Nassim Nicholas Taleb.
fuente
"La predicción es muy difícil, especialmente si se trata del futuro". La cita se atribuye a muchas personas de alguna forma . Restringiré en la siguiente "extrapolación" a "predicción fuera del rango conocido", y en un entorno unidimensional, extrapolación de un pasado conocido a un futuro desconocido.
Entonces, ¿qué tiene de malo la extrapolación? Primero, no es fácil modelar el pasado . En segundo lugar, es difícil saber si un modelo del pasado puede usarse para el futuro . Detrás de ambas afirmaciones se encuentran preguntas profundas sobre la causalidad o la ergodicidad, la suficiencia de variables explicativas, etc. que dependen bastante de los casos. Lo que está mal es que es difícil elegir un único esquema de extrapolación que funcione bien en diferentes contextos, sin mucha información adicional.
Este desajuste genérico se ilustra claramente en el conjunto de datos del cuarteto Anscombe que se muestra a continuación. La regresión lineal también es (fuera del rango de coordenadas ) una instancia de extrapolación. La misma línea regresa cuatro conjuntos de puntos, con las mismas estadísticas estándar. Sin embargo, los modelos subyacentes son bastante diferentes.x
Sin embargo, el pronóstico puede rectificarse hasta cierto punto. Además de otras respuestas, un par de ingredientes pueden ayudar a la extrapolación práctica:
Recientemente, participé en un proyecto para extrapolar valores para la comunicación de subsistemas de simulación en un entorno en tiempo real. El dogma en este dominio era que la extrapolación puede causar inestabilidad. De hecho, nos dimos cuenta de que la combinación de los dos ingredientes anteriores era muy eficiente, sin inestabilidad notable (sin una prueba formal todavía, y actualmente en revisión ). Y la extrapolación funcionó con polinomios simples, con una carga computacional muy baja, la mayoría de las operaciones se calcularon de antemano y se almacenaron en tablas de búsqueda.
Finalmente, como la extrapolación sugiere un dibujo divertido, el siguiente es el efecto hacia atrás de la regresión lineal:
fuente
Aunque el ajuste de un modelo puede ser " bueno ", la extrapolación más allá del rango de los datos debe tratarse con escepticismo. La razón es que, en muchos casos, la extrapolación (por desgracia e inevitablemente) se basa en suposiciones no comprobables sobre el comportamiento de los datos más allá de su soporte observado.
Al extrapolar, uno debe hacer dos juicios: Primero, desde una perspectiva cuantitativa, ¿qué tan válido es el modelo fuera del rango de los datos? En segundo lugar, desde una perspectiva cualitativa, ¿cuán plausible es que un punto que se encuentra fuera del rango de muestra observado sea un miembro de la población que asumimos para la muestra? Debido a que ambas preguntas implican un cierto grado de ambigüedad, la extrapolación también se considera una técnica ambigua. Si tiene razones para aceptar que estos supuestos son válidos, la extrapolación suele ser un procedimiento de inferencia válido.xout
Una advertencia adicional es que muchas técnicas de estimación no paramétricas no permiten la extrapolación de forma nativa. Este problema es particularmente notable en el caso de suavizado de estrías donde no hay más nudos para anclar la ranura ajustada.
Permítanme enfatizar que la extrapolación está lejos del mal. Por ejemplo, los métodos numéricos ampliamente utilizados en Estadística (por ejemplo, el proceso delta-cuadrado de Aitken y la Extrapolación de Richardson ) son esencialmente esquemas de extrapolación basados en la idea de que el comportamiento subyacente de la función analizada para los datos observados permanece estable en todo el soporte de la función.
fuente
Contrariamente a otras respuestas, diría que no hay nada de malo en la extrapolación, siempre y cuando no se use de manera inconsciente. Primero, observe que la extrapolación es :
... por lo que es un término muy amplio y muchos métodos diferentes que van desde la extrapolación lineal simple hasta la regresión lineal, la regresión polinómica o incluso algunos métodos avanzados de pronóstico de series temporales se ajustan a dicha definición. De hecho, la extrapolación, la predicción y el pronóstico están estrechamente relacionados. En estadística a menudo hacemos predicciones y pronósticos . Esto también es lo que dice el enlace al que se refiere:
Muchos métodos de extrapolación se utilizan para hacer predicciones, además, a menudo algunos métodos simples funcionan bastante bien con muestras pequeñas, por lo que pueden preferirse los complicados. El problema es, como se observó en otras respuestas, cuando utiliza el método de extrapolación de forma incorrecta.
Por ejemplo, muchos estudios muestran que la edad de iniciación sexual disminuye con el tiempo en los países occidentales. Eche un vistazo a una trama a continuación sobre la edad de la primera relación sexual en los EE. UU. Si utilizamos a ciegas la regresión lineal para predecir la edad de la primera relación sexual, podríamos predecir que irá por debajo de cero en algunos años (de acuerdo con el primer matrimonio y el primer nacimiento en algún momento después de la muerte) ... Sin embargo, si necesita hacer pronóstico para un año antes, entonces supongo que la regresión lineal conduciría a predicciones bastante precisas a corto plazo para la tendencia.
(fuente guttmacher.org )
Todos los modelos están equivocados , la extrapolación también está mal, ya que no le permitiría hacer predicciones precisas. Como otras herramientas matemáticas / estadísticas, le permitirá hacer predicciones aproximadas . La extensión de cuán precisos serán depende de la calidad de los datos que tenga, utilizando métodos adecuados para su problema, las suposiciones que hizo al definir su modelo y muchos otros factores. Pero esto no significa que no podamos usar tales métodos. Podemos, pero debemos recordar sus limitaciones y debemos evaluar su calidad para un problema determinado.
fuente
Me gusta bastante el ejemplo de Nassim Taleb (que fue una adaptación de un ejemplo anterior de Bertrand Russell):
Algunos análogos matemáticos son los siguientes:
El conocimiento de los primeros coeficientes de Taylor de una función no siempre garantiza que los coeficientes siguientes sigan su supuesto patrón.
El conocimiento de las condiciones iniciales de una ecuación diferencial no siempre garantiza el conocimiento de su comportamiento asintótico (por ejemplo, las ecuaciones de Lorenz, a veces distorsionadas en el llamado "efecto mariposa")
Aquí hay un buen hilo MO sobre el asunto.
fuente
Medita la siguiente historia, si quieres.
También recuerdo estar sentado en un curso de Estadística, y el profesor nos dijo que la extrapolación era una mala idea. Luego, durante la siguiente clase, nos dijo que era una mala idea otra vez; de hecho, lo dijo dos veces.
Estuve enfermo durante el resto del semestre, pero estaba seguro de que no podía haber perdido mucho material, porque la semana pasada el tipo seguramente no había estado haciendo nada más que decirle a la gente una y otra vez que la extrapolación era una mala idea. .
Por extraño que parezca, no obtuve una puntuación muy alta en el examen.
fuente
La pregunta no es solo estadística, también es epistemológica. La extrapolación es una de las formas en que aprendemos sobre la naturaleza, es una forma de inducción . Digamos que tenemos datos para la conductividad eléctrica de un material en un rango de temperaturas de 0 a 20 grados Celsius, ¿qué podemos decir acerca de la conductividad a 40 grados Celsius?
Está estrechamente relacionado con la inferencia de muestra pequeña: ¿qué podemos decir sobre toda la población a partir de las mediciones realizadas en una muestra pequeña? Esto fue iniciado por Gosset como Guiness , quien ideó las distribuciones t de Student. Antes de él, los estadísticos no se molestaron en pensar en muestras pequeñas suponiendo que el tamaño de la muestra siempre puede ser grande. Estaba en Guinnes y tuvo que lidiar con muestras de cerveza para decidir qué hacer con todo el lote de cerveza para enviar.
Entonces, en la práctica (negocios), ingeniería y ciencia siempre tenemos que extrapolar de alguna manera. Podría ser extrapolar muestras pequeñas a grandes, o desde un rango limitado de condiciones de entrada a un conjunto más amplio de condiciones, desde lo que está sucediendo en el acelerador hasta lo que sucedió con un agujero negro a miles de millones de millas, etc. Sin embargo, es especialmente importante en la ciencia , como realmente aprendemos al estudiar las discrepancias entre nuestras estimaciones de extrapolación y las mediciones reales. A menudo encontramos nuevos fenómenos cuando las discrepancias son grandes o consistentes.
Por lo tanto, digo que no hay problema con la extrapolación. Es algo que tenemos que hacer todos los días. Es dificil.
fuente
La extrapolación en sí no es necesariamente malvada, pero es un proceso que se presta a conclusiones que son más irracionales de lo que se llega con la interpolación.
Para lo último en extrapolación, considere el Proyecto Manhattan. Los físicos allí se vieron obligados a trabajar con pruebas a escala extremadamente pequeña antes de construir la cosa real. Simplemente no tenían suficiente uranio para desperdiciar en las pruebas. Hicieron lo mejor que pudieron, y fueron inteligentes. Sin embargo, cuando ocurrió la prueba final, se decidió que cada científico decidiría qué tan lejos de la explosión querían estar cuando estallara. Hubo diferencias de opinión sustanciales sobre cuán lejos estaba "seguro" porque todos los científicos sabían que estaban extrapolando muy lejos de sus pruebas. Incluso hubo una consideración no trivial de que podrían incendiar la atmósfera con la bomba nuclear, ¡un problema que también se detuvo con una extrapolación sustancial!
fuente
Muchas buenas respuestas aquí, solo quiero intentar y sintetizar lo que veo como el núcleo del problema: es peligroso extrapolar más allá de ese proceso de generación de datos que dio lugar a la muestra de estimación. Esto a veces se llama un "cambio estructural".
El pronóstico viene con suposiciones, la principal es que el proceso de generación de datos es (tan cerca como que no hace una diferencia significativa) el mismo que generó la muestra (a excepción de las variables rhs, cuyos cambios explícitamente se tienen en cuenta en el modelo) . Si ocurre un cambio estructural (es decir, Acción de Gracias en el ejemplo de Taleb), todas las apuestas están canceladas.
fuente