¿Cuál es la diferencia entre los pronósticos "dentro de la muestra" y "fuera de la muestra"?

17

No entiendo cuál es exactamente la diferencia entre la predicción "dentro de la muestra" y "fuera de la muestra". Un pronóstico dentro de la muestra utiliza un subconjunto de los datos disponibles para pronosticar valores fuera del período de estimación. En cambio, un pronóstico fuera de muestra utiliza todos los datos disponibles ¿Son correctos ?

Muy específicamente, ¿es correcta la siguiente definición?

Un pronóstico dentro de la muestra utiliza un subconjunto de los datos disponibles para pronosticar valores fuera del período de estimación y compararlos con los resultados conocidos o reales correspondientes. Esto se hace para evaluar la capacidad del modelo para pronosticar valores conocidos. Por ejemplo, un pronóstico dentro de la muestra de 1980 a 2015 podría usar datos de 1980 a 2012 para estimar el modelo. Usando este modelo, el pronosticador predeciría los valores para 2013-2015 y compararía los valores pronosticados con los valores reales conocidos. En cambio, un pronóstico fuera de la muestra utiliza todos los datos disponibles en la muestra para estimar un modelo. Para el ejemplo anterior, la estimación se realizaría durante 1980-2015, y las previsiones comenzarían en 2016.

Engin YILMAZ
fuente
¿Podría proporcionar algún contexto? Las respuestas que proporciona a su propia pregunta parecen correctas, pero la terminología puede ser específica del tema.
IWS
¿De dónde sacaste esas definiciones?
gung - Restablece a Monica
En la muestra hay datos que conoce en el momento de la creación de modelos y que utiliza para construir ese modelo. Fuera de la muestra hay datos que no se vieron y solo se produce la predicción / pronóstico. Bajo la mayoría de las circunstancias, el modelo funcionará peor fuera de la muestra que dentro de la muestra donde todos los parámetros han sido calibrados.
Ric
@IWS agregué una pregunta específica :)
Engin YILMAZ
@ Richard Lea la nueva pregunta específica ...
Engin YILMAZ

Respuestas:

32

Por "muestra" se entiende la muestra de datos que está utilizando para ajustarse al modelo.

Primero: tiene una muestra
Segundo: ajusta un modelo en la muestra
Tercero: puede usar el modelo para pronosticar

Si está pronosticando una observación que fue parte de la muestra de datos, es un pronóstico dentro de la muestra.

Si está pronosticando una observación que no era parte de la muestra de datos, es un pronóstico fuera de la muestra.

Entonces, la pregunta que debe hacerse es: ¿se utilizó o no la observación particular para el ajuste del modelo? Si se usó para el ajuste del modelo, entonces el pronóstico de la observación está dentro de la muestra. De lo contrario, está fuera de la muestra.

si utiliza los datos 1990-2013 para ajustarse al modelo y luego pronostica para 2011-2013, es un pronóstico dentro de la muestra. pero si solo usa 1990-2010 para ajustar el modelo y luego pronostica 2011-2013, entonces es un pronóstico fuera de muestra.

El caballo del rey Salomón
fuente
Tenemos una muestra de 1990 a 2013, luego ajustamos el modelo en la muestra, luego pronosticamos 2011-2013, ¿está esto dentro de la muestra? o Tenemos una muestra de 1990 a 2013, luego ajustamos el modelo 1990 a 2010 en la muestra, pronosticamos 2011-2013, ¿está fuera de la muestra?
Engin YILMAZ
Sí, si utiliza los datos 1990-2013 para ajustarse al modelo y luego pronostica para 2011-2013, es un pronóstico dentro de la muestra. pero si solo usa 1990-2010 para ajustar el modelo y luego pronostica 2011-2013, entonces es un pronóstico fuera de muestra.
Caballo del Rey Salomón
3

Suponga que en su muestra, tiene una secuencia de 10 puntos de datos. Estos datos se pueden dividir en dos partes: por ejemplo, los primeros 7 puntos de datos para estimar los parámetros del modelo y los siguientes 3 puntos de datos para probar el rendimiento del modelo. Usando el modelo ajustado, las predicciones hechas para los primeros 7 puntos de datos se llamarán pronóstico dentro de la muestra y lo mismo para los últimos 3 puntos de datos se llamarán fuera del pronóstico de la muestra. Esto es lo mismo que la idea de dividir los datos en un conjunto de entrenamiento y un conjunto de validación.

Kumar
fuente
1

El pronóstico dentro de la muestra es el proceso de evaluar formalmente las capacidades predictivas de los modelos desarrollados utilizando datos observados para ver qué tan efectivos son los algoritmos en la reproducción de datos. Es algo similar a un conjunto de entrenamiento en un algoritmo de aprendizaje automático y el fuera de muestra es similar al conjunto de prueba.

ADS ANSARI
fuente
usted da una explicación sucinta del pronóstico dentro de la muestra, ¿podría también proporcionar lo mismo para fuera de la muestra (es decir, una explicación breve, no solo una comparación con los conjuntos de prueba)?
ReneBt
0

El siguiente diagrama lo ayudará a comprender el TIEMPO y el TIEMPO FUERA

ingrese la descripción de la imagen aquí

Anant Gupta
fuente
-1

En el pronóstico de series de tiempo, 'Insample' significa datos del tren 'Outsample' significa datos de prueba

En las series de tiempo, primero podemos pronosticar resultados para datos de 'Insample' (es decir, tren). Más adelante podemos pronosticar los resultados de los datos de 'muestra' (es decir, prueba).

model = ARIMA(order = (p,d,q), seasonal_order=(P,D,Q,S))
model.fit(train_data)

train_predictions = model.predict_in_sample()
test_predictions = model.predict(n_periods=len(test_data.index))

predictions = pd.concatenate((train_predictions, test_predictions),axis=0)
Brahmaiahchowdary
fuente
Creo que su respuesta se está rechazando, porque no responde a la pregunta, en particular "Muy específicamente, ¿es correcta la siguiente definición?" No está dirigido.
Martin Modrák