No entiendo cuál es exactamente la diferencia entre la predicción "dentro de la muestra" y "fuera de la muestra". Un pronóstico dentro de la muestra utiliza un subconjunto de los datos disponibles para pronosticar valores fuera del período de estimación. En cambio, un pronóstico fuera de muestra utiliza todos los datos disponibles ¿Son correctos ?
Muy específicamente, ¿es correcta la siguiente definición?
Un pronóstico dentro de la muestra utiliza un subconjunto de los datos disponibles para pronosticar valores fuera del período de estimación y compararlos con los resultados conocidos o reales correspondientes. Esto se hace para evaluar la capacidad del modelo para pronosticar valores conocidos. Por ejemplo, un pronóstico dentro de la muestra de 1980 a 2015 podría usar datos de 1980 a 2012 para estimar el modelo. Usando este modelo, el pronosticador predeciría los valores para 2013-2015 y compararía los valores pronosticados con los valores reales conocidos. En cambio, un pronóstico fuera de la muestra utiliza todos los datos disponibles en la muestra para estimar un modelo. Para el ejemplo anterior, la estimación se realizaría durante 1980-2015, y las previsiones comenzarían en 2016.
fuente
Respuestas:
Por "muestra" se entiende la muestra de datos que está utilizando para ajustarse al modelo.
Primero: tiene una muestra
Segundo: ajusta un modelo en la muestra
Tercero: puede usar el modelo para pronosticar
Si está pronosticando una observación que fue parte de la muestra de datos, es un pronóstico dentro de la muestra.
Si está pronosticando una observación que no era parte de la muestra de datos, es un pronóstico fuera de la muestra.
Entonces, la pregunta que debe hacerse es: ¿se utilizó o no la observación particular para el ajuste del modelo? Si se usó para el ajuste del modelo, entonces el pronóstico de la observación está dentro de la muestra. De lo contrario, está fuera de la muestra.
fuente
Suponga que en su muestra, tiene una secuencia de 10 puntos de datos. Estos datos se pueden dividir en dos partes: por ejemplo, los primeros 7 puntos de datos para estimar los parámetros del modelo y los siguientes 3 puntos de datos para probar el rendimiento del modelo. Usando el modelo ajustado, las predicciones hechas para los primeros 7 puntos de datos se llamarán pronóstico dentro de la muestra y lo mismo para los últimos 3 puntos de datos se llamarán fuera del pronóstico de la muestra. Esto es lo mismo que la idea de dividir los datos en un conjunto de entrenamiento y un conjunto de validación.
fuente
El pronóstico dentro de la muestra es el proceso de evaluar formalmente las capacidades predictivas de los modelos desarrollados utilizando datos observados para ver qué tan efectivos son los algoritmos en la reproducción de datos. Es algo similar a un conjunto de entrenamiento en un algoritmo de aprendizaje automático y el fuera de muestra es similar al conjunto de prueba.
fuente
El siguiente diagrama lo ayudará a comprender el TIEMPO y el TIEMPO FUERA
fuente
En el pronóstico de series de tiempo, 'Insample' significa datos del tren 'Outsample' significa datos de prueba
En las series de tiempo, primero podemos pronosticar resultados para datos de 'Insample' (es decir, tren). Más adelante podemos pronosticar los resultados de los datos de 'muestra' (es decir, prueba).
fuente