Tengo dos series de datos que trazan la mediana de edad de muerte a lo largo del tiempo. Ambas series demuestran un aumento de la edad al morir con el tiempo, pero una muy inferior a la otra. Quiero determinar si el aumento en la edad al morir de la muestra inferior es significativamente diferente al de la muestra superior.
Aquí están los datos , ordenados por año (desde 1972 hasta 2009 inclusive) redondeados a tres decimales:
Cohort A 70.257 70.424 70.650 70.938 71.207 71.263 71.467 71.763 71.982 72.270 72.617 72.798 72.964 73.397 73.518 73.606 73.905 74.343 74.330 74.565 74.558 74.813 74.773 75.178 75.406 75.708 75.900 76.152 76.312 76.558 76.796 77.057 77.125 77.328 77.431 77.656 77.884 77.983
Cohort B 5.139 8.261 6.094 12.353 11.974 11.364 12.639 11.667 14.286 12.794 12.250 14.079 17.917 16.250 17.321 18.182 17.500 20.000 18.824 21.522 21.500 21.167 21.818 22.895 23.214 24.167 26.250 24.375 27.143 24.500 23.676 25.179 24.861 26.875 27.143 27.045 28.500 29.318
Ambas series no son estacionarias, ¿cómo puedo comparar las dos, por favor? Estoy usando STATA. Cualquier consejo sería recibido con gratitud.
time-series
correlation
stata
Matt Hurley
fuente
fuente
Respuestas:
Esta es una situación simple; vamos a mantenerlo así. La clave es concentrarse en lo que importa:
Obtención de una descripción útil de los datos.
Evaluar las desviaciones individuales de esa descripción.
Evaluar el posible papel y la influencia del azar en la interpretación.
Mantener la integridad intelectual y la transparencia.
Todavía hay muchas opciones y muchas formas de análisis serán válidas y efectivas. Vamos a ilustrar un enfoque aquí que se puede recomendar por su adherencia a estos principios clave.
Para mantener la integridad, dividamos los datos en mitades: las observaciones de 1972 a 1990 y las de 1991 a 2009 (19 años en cada una). Ajustaremos los modelos a la primera mitad y luego veremos qué tan bien funcionan los ajustes al proyectar la segunda mitad. Esto tiene la ventaja adicional de detectar cambios significativos que pueden haber ocurrido durante la segunda mitad.
Para obtener una descripción útil, necesitamos (a) encontrar una manera de medir los cambios y (b) ajustar el modelo más simple posible apropiado para esos cambios, evaluarlo y ajustar iterativamente los más complejos para acomodar las desviaciones de los modelos simples.
(a) Tiene muchas opciones: puede ver los datos sin procesar; puedes ver sus diferencias anuales; puede hacer lo mismo con los logaritmos (para evaluar los cambios relativos); puede evaluar los años de vida perdidos o la esperanza de vida relativa (RLE); o muchas otras cosas Después de pensarlo un poco, decidí considerar el RLE, definido como la proporción de la esperanza de vida en la Cohorte B en relación con la de la Cohorte A. (referencia) Afortunadamente, como muestran los gráficos, la esperanza de vida en la Cohorte A está aumentando regularmente en un período estable. moda con el tiempo, por lo que la mayor parte de la variación de aspecto aleatorio en el RLE se debe a cambios en la cohorte B.
(b) El modelo más simple posible para comenzar es una tendencia lineal. Veamos qué tan bien funciona.
Los puntos azul oscuro en este gráfico son los datos retenidos para el ajuste; Los puntos dorados claros son los datos posteriores, no se utilizan para el ajuste. La línea negra es el ajuste, con una pendiente de .009 / año. Las líneas discontinuas son intervalos de predicción para valores futuros individuales.
En general, el ajuste se ve bien: el examen de los residuos (ver más abajo) no muestra cambios importantes en sus tamaños a lo largo del tiempo (durante el período de datos 1972-1990). (Hay algunos indicios de que tendieron a ser más grandes desde el principio, cuando las expectativas de vida eran bajas. Podríamos manejar esta complicación sacrificando algo de simplicidad, pero es poco probable que los beneficios para estimar la tendencia sean grandes). Hay una pequeña pista. de correlación en serie (exhibida por algunas corridas de residuos positivos y corridas de residuos negativos), pero claramente esto no es importante. No hay valores atípicos, lo que se indicaría mediante puntos más allá de las bandas de predicción.
La única sorpresa es que en 2001 los valores cayeron repentinamente a la banda de predicción más baja y permanecieron allí: algo bastante repentino y grande sucedió y persistió.
Aquí están los residuos, que son las desviaciones de la descripción mencionada anteriormente.
Como queremos comparar los residuos con 0, las líneas verticales se dibujan al nivel cero como una ayuda visual. Nuevamente, los puntos azules muestran los datos utilizados para el ajuste. Los de oro claro son los residuos de datos que caen cerca del límite inferior de predicción, posterior a 2000.
De esta cifra podemos estimar que el efecto del cambio 2000-2001 fue de aproximadamente -0.07 . Esto refleja una caída repentina de 0.07 (7%) de una vida útil completa dentro de la Cohorte B. Después de esa caída, el patrón horizontal de residuos muestra que la tendencia anterior continuó, pero en el nuevo nivel inferior. Esta parte del análisis debe considerarse exploratoria : no se planificó específicamente, pero surgió debido a una sorprendente comparación entre los datos retenidos (1991-2009) y el ajuste al resto de los datos.
Parece que no hay razón para ajustar un modelo más complicado a estos datos, al menos no con el propósito de estimar si hay una tendencia genuina en el RLE a lo largo del tiempo: hay una. Podríamos ir más allá y dividir los datos en valores anteriores a 2001 y posteriores a 2000 para refinar nuestras estimaciones.de las tendencias, pero no sería completamente honesto realizar pruebas de hipótesis. Los valores p serían artificialmente bajos, porque las pruebas de división no se planificaron por adelantado. Pero como ejercicio exploratorio, tal estimación está bien. ¡Aprenda todo lo que pueda de sus datos! Solo tenga cuidado de no engañarse con el sobreajuste (que es casi seguro que suceda si usa más de media docena de parámetros o usa técnicas de ajuste automatizadas), o fisgonea los datos: esté alerta a la diferencia entre la confirmación formal y la informal (pero valiosa) exploración de datos.
Resumamos:
Al seleccionar una medida adecuada de esperanza de vida (RLE), mantener la mitad de los datos, ajustar un modelo simple y probar ese modelo con los datos restantes, hemos establecido con gran confianza que : había una tendencia constante; ha estado cerca de lineal durante un largo período de tiempo; y hubo una repentina caída persistente en RLE en 2001.
Nuestro modelo es sorprendentemente parsimonioso : requiere solo dos números (una pendiente y una intersección) para describir los datos iniciales con precisión. Necesita un tercero (la fecha del receso, 2001) para describir una desviación obvia pero inesperada de esta descripción. No hay valores atípicos en relación con esta descripción de tres parámetros. El modelo no mejorará sustancialmente caracterizando la correlación en serie (el enfoque de las técnicas de series de tiempo en general), intentando describir las pequeñas desviaciones individuales (residuos) exhibidas o introduciendo ajustes más complicados (como agregar un componente de tiempo cuadrático) o cambios de modelado en los tamaños de los residuos a lo largo del tiempo).
La tendencia ha sido 0.009 RLE por año . Esto significa que con cada año que pasa, a la expectativa de vida dentro de la Cohorte B se le ha agregado 0.009 (casi 1%) de una vida normal esperada completa. En el transcurso del estudio (37 años), eso equivaldría a 37 * 0.009 = 0.34 = un tercio de una mejora total de por vida. El retroceso en 2001 redujo esa ganancia a aproximadamente 0.28 de toda una vida de 1972 a 2009 (aunque durante ese período la esperanza de vida general aumentó un 10%).
Aunque este modelo podría mejorarse, probablemente necesitaría más parámetros y es improbable que la mejora sea excelente (como lo atestigua el comportamiento casi aleatorio de los residuos). En general, deberíamos contentarnos con llegar a una descripción tan compacta, útil y simple de los datos para tan poco trabajo analítico.
fuente
Creo que la respuesta de Whuber es sencilla y simple de entender para una persona que no es de la serie temporal como yo. Baso el mío en el suyo. Mi respuesta está en R, no en Stata, ya que no conozco bien a Stata.
Me pregunto si la pregunta realmente nos pide que analicemos si el aumento absoluto año tras año es el mismo en las dos cohortes (en lugar de relativo). Creo que esto es importante e ilustrarlo de la siguiente manera. Considere el siguiente ejemplo de juguete:
Aquí tenemos 2 cohortes, cada una de las cuales tiene un aumento constante de 1 año por año en la mediana de supervivencia. Entonces, cada año las dos cohortes en este ejemplo aumentan en la misma cantidad absoluta, pero el RLE da lo siguiente:
Lo que obviamente tiene una tendencia al alza, y el valor p para probar la hipótesis de que el gradiente de la línea 0 es 2.2e-16. La línea recta ajustada (ignoremos que esta línea se ve curvada) tiene un gradiente de 0.008. Entonces, aunque ambas cohortes tienen el mismo aumento absoluto en un año, el RLE tiene una pendiente ascendente.
Entonces, si usa RLE cuando desea buscar aumentos absolutos, rechazará inapropiadamente la hipótesis nula.
Usando los datos suministrados, calculando la diferencia absoluta entre las cohortes que obtenemos:
Lo que implica que la diferencia absoluta entre la supervivencia media está disminuyendo gradualmente (es decir, la cohorte con la supervivencia pobre se está acercando gradualmente a la cohorte con la mejor supervivencia).
fuente
Estas dos series temporales parecen tener una tendencia determinista. Esta es una relación que obviamente desea eliminar antes de un análisis posterior. Personalmente, procedería de la siguiente manera:
1) Realizaría una regresión para cada serie de tiempo contra una constante y un tiempo, y calcularía el residual para cada serie de tiempo.
2) Tomando las dos series de residuos, calculadas en el paso anterior, realizaría una regresión lineal simple (sin un término constante) y vería el estadístico t, el valor p, y decidiría si existe o no una mayor dependencia entre Las dos series.
Este análisis asume el mismo conjunto de suposiciones que usted hace en una regresión lineal.
fuente
En algunos casos, se conoce un modelo teórico que se puede utilizar para probar su hipótesis. En mi mundo, este "conocimiento" a menudo está ausente y uno debe recurrir a técnicas estadísticas que pueden clasificarse como análisis exploratorio de datos que resume lo que sigue. a menudo engañoso en la medida en que se pueden encontrar fácilmente falsos positivos. Uno de los primeros análisis de esto se encuentra en Yule, GU, 1926, "¿Por qué a veces obtenemos correlaciones sin sentido entre series de tiempo? Un estudio en el muestreo y la naturaleza de las series de tiempo", Journal of the Royal Statistical Society 89, 1– 64) Alternativamente, cuando una o más de las series se han visto afectadas por una actividad excepcional (ver whuber " el revés repentino en la cohorte B en 2001) que puede ocultar efectivamente relaciones significativas. Ahora, detectar una relación entre series de tiempo se extiende a examinar no solo las relaciones contemporáneas sino también las posibles relaciones rezagadas. Continuando, si cualquiera de las series se ha visto afectada por anomalías (eventos únicos), entonces debemos fortalecer nuestro análisis ajustando estas distorsiones únicas. La literatura de series temporales señala cómo identificar la relación a través del preblanqueamiento para identificar más claramente la estructura. El blanqueamiento previo se ajusta a la estructura intracorrelativa antes de identificar la estructura intercorrelativa. Observe que la palabra clave era estructura de identificación. Este enfoque lleva fácilmente al siguiente "modelo útil": Ahora, detectar una relación entre series de tiempo se extiende a examinar no solo las relaciones contemporáneas sino también las posibles relaciones rezagadas. Continuando, si cualquiera de las series se ha visto afectada por anomalías (eventos únicos), entonces debemos fortalecer nuestro análisis ajustando estas distorsiones únicas. La literatura de series temporales señala cómo identificar la relación a través del preblanqueamiento para identificar más claramente la estructura. El blanqueamiento previo se ajusta a la estructura intracorrelativa antes de identificar la estructura intercorrelativa. Observe que la palabra clave era estructura de identificación. Este enfoque lleva fácilmente al siguiente "modelo útil": Ahora, detectar una relación entre series de tiempo se extiende a examinar no solo las relaciones contemporáneas sino también las posibles relaciones rezagadas. Continuando, si cualquiera de las series se ha visto afectada por anomalías (eventos únicos), entonces debemos fortalecer nuestro análisis ajustando estas distorsiones únicas. La literatura de series temporales señala cómo identificar la relación a través del preblanqueamiento para identificar más claramente la estructura. El blanqueamiento previo se ajusta a la estructura intracorrelativa antes de identificar la estructura intercorrelativa. Observe que la palabra clave era estructura de identificación. Este enfoque lleva fácilmente al siguiente "modelo útil": Si cualquiera de las series se ha visto afectada por anomalías (eventos únicos), entonces debemos fortalecer nuestro análisis ajustando estas distorsiones únicas. La literatura de series temporales señala cómo identificar la relación a través del preblanqueamiento para identificar más claramente la estructura. El blanqueamiento previo se ajusta a la estructura intracorrelativa antes de identificar la estructura intercorrelativa. Observe que la palabra clave era estructura de identificación. Este enfoque lleva fácilmente al siguiente "modelo útil": Si cualquiera de las series se ha visto afectada por anomalías (eventos únicos), entonces debemos fortalecer nuestro análisis ajustando estas distorsiones únicas. La literatura de series temporales señala cómo identificar la relación a través del preblanqueamiento para identificar más claramente la estructura. El blanqueamiento previo se ajusta a la estructura intracorrelativa antes de identificar la estructura intercorrelativa. Observe que la palabra clave era estructura de identificación. Este enfoque lleva fácilmente al siguiente "modelo útil": Observe que la palabra clave era estructura de identificación. Este enfoque lleva fácilmente al siguiente "modelo útil": Observe que la palabra clave era estructura de identificación. Este enfoque lleva fácilmente al siguiente "modelo útil":
Y (T) = -194.45
+ [X1 (T)] [(+ 1.2396+ 1.6523B ** 1)] COHORTA
lo que sugiere una relación contemporánea de 1.2936 y un efecto rezagado de 1.6523. Tenga en cuenta que hubo varios años en los que se identificó una actividad inusual, a saber. (1975,2001,1983,1999,1976,1985,1984,1991 y 1989). Los ajustes para los años nos permiten evaluar más claramente la relación entre estas dos series.
En términos de hacer un pronóstico
MODELO EXPRESADO COMO XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ constante
LA CONSTANTE LATERAL DERECHA ES: -194.45
COHORTA 0 1.239589 X (39) * 78.228616 = 96.971340
COHORTA 1 1.652332 X (38) * 77.983000 = 128.853835
I ~ L00030 0 -2.475963 X (39) * 1.000000 = -2.475963
Cuatro coeficientes es todo lo que se requiere para hacer un pronóstico y, por supuesto, una predicción para CohortA en el período de tiempo 39 (78.228616) obtenido del modelo ARIMA para Cohorta.
fuente
Esta respuesta contiene algunos gráficos
fuente