Volumen de tiempo correlacionado

Considere el siguiente gráfico:

Twitter y volumen de operaciones

La línea roja (eje izquierdo) describe el volumen de negociación de una determinada acción. La línea azul (eje derecho) describe el volumen del mensaje de Twitter para ese stock. Por ejemplo, el 9 de mayo (05-09) se realizaron 1.100 millones de intercambios y 4.000 tweets.

Me gustaría calcular si existe una correlación entre las series de tiempo, ya sea en el mismo día o con un retraso, por ejemplo: el volumen de tweets se correlaciona con el volumen de operaciones un día después. Estoy leyendo muchos artículos que han realizado dicho análisis, por ejemplo, Correlacionar series financieras financieras con actividad de microblogging , pero no describen cómo se realiza dicho análisis en términos prácticos. Lo siguiente se afirma en el artículo:

ingrese la descripción de la imagen aquí

Sin embargo, tengo muy poca experiencia con el análisis estadístico y no sé cómo ejecutar esto en la serie que tengo. Uso SPSS (también conocido como PASW) y mi pregunta es: ¿cuáles son los pasos a seguir para realizar dicho análisis desde el punto en que tengo un archivo de datos subyacente a la imagen de arriba? ¿Es esta prueba una característica predeterminada (y cómo se llama) y / o cómo podría ejecutarla?

Cualquier ayuda sería muy apreciada :-)

time-series correlation lags Pr0no
fuente

Puede calcularlos ... simplemente no puede compararlos con valores críticos a menos que las dos series sean

bivariadas

He pegado los datos en bruto aquí: pastebin.com/tZajRae9 ¿Hay alguna forma de saber si las series son bivariadas normales? Realmente agradecería tu comentario.

Pr0no

Después de detectar los cambios de Outliers / Level en cada una de las series, la serie ajustada resultante exhibió un modelo AR (1). Después de incorporar no solo el ajuste Outlier / level Shift Y el AR identificado empíricamente (1), ambas series de ruido estaban libres de autocorrelación (dentro de la estructura). Una correlación cruzada de estas dos series sustitutas indicó que no existe una correlación cruzada sustantiva (entre estructura), por lo que el número de tweets no parece ayudar a la predicción del volumen.

IrishStat

Respuestas:

Dos verifican la normalidad bivariada verifican tres cosas:

verificar si la primera serie de observaciones es marginalmente normal,
verificar si la segunda serie de observaciones es marginalmente normal,
retroceda el uno en el otro y verifique si los residuos son normales.

Para verificar la normalidad en cada uno de estos pasos, use gráficos qq normales o puede usar cualquier prueba de hipótesis de normalidad.

O, alternativamente, podría verificar si cada combinación lineal posible (coeficientes reales) de las dos series es marginalmente normal. Sin embargo, eso probablemente sería difícil.

Editar: (6 años después) Guardaré lo anterior para la posteridad, pero tenga en cuenta que tengo una respuesta más reciente a una pregunta similar aquí .

Taylor
fuente

He tomado los pasos 1 y 2 y se me ocurrieron los siguientes diagramas de caja : i.imgur.com/SDOTE.png Excepto por las observaciones atípicas de 3 a 5, parecen marginalmente normales. Sin embargo, el Sig. El valor para la prueba de Shapiro-Wilk es 0.000, lo que indicaría una desviación significativa de la normalidad. Con los valores atípicos eliminados, Shapiro Wilk Sig. es 0.201 para tweets y 0.004 para intercambios. ¿Esto indica que no es posible la correlación? Además, esta es una serie de tiempo: eliminar valores atípicos significa eliminar días dentro del marco de tiempo investigado. ¿Es esta una práctica aceptada?

Pr0no

También hice un diagrama de pp para el paso 3. O al menos, en mi interpretación, esto es lo que necesito (una regresión lineal con diagrama de probabilidad normal): i.imgur.com/EZ3Ic.png ¿ Algún comentario?

Pr0no

Las distribuciones marginales no parecen normales. Hay una pequeña sección sobre inferencia en el enlace de la página de wikipedia . Eliminar los valores atípicos generalmente no es una buena idea. Tal vez arrancar un intervalo de confianza.

Taylor

La pregunta es sobre la correlación, pero la respuesta es sobre la normalidad. La respuesta se votó varias veces y se aceptó. ¿Qué me estoy perdiendo aquí? ..

Richard Hardy

Una distribución normal bivariada es el modelo más simple que motiva / justifica el uso de la correlación de Pearson.

Taylor

El coeficiente de correlación entre series de tiempo es inútil. Consulte COEFICIENTE DE CORRELACIÓN: valores críticos para la importancia de la prueba . Esto fue señalado por primera vez por U. Yule en 1926 Yule, GU, 1926, "¿Por qué a veces obtenemos correlaciones sin sentido entre series de tiempo? Un estudio de muestreo y la naturaleza de las series de tiempo", Journal of the Royal Statistical Society 89, 1 –64 . Es posible que desee google "por qué obtenemos correlación sin sentido" para más.

La razón de esto es que las pruebas de correlación requieren normalidad articular. La normalidad conjunta requiere que cada serie sea normal. La normalidad requiere independencia. Para examinar la relación entre series temporales, revise la Identificación de la función de transferencia en cualquier buen libro de series temporales como Análisis de series temporales: métodos univariados y multivariados, por William WS Wei, David P. Reilly .

Respuesta al desafío

En términos de una respuesta a su desafío. Es bien sabido por algunos ( Yule, GU, 1926 ) que la correlación de dos series de tiempo puede ser defectuosa, particularmente si cualquiera de las series se ve afectada por pulsos / cambios de nivel / pulsos estacionales y / o tendencias de tiempo local. Siendo ese el caso, tomaría cada una de las series POR SEPARADO e identificaría la estructura ARIMA y cualquier pulso / cambio de nivel / pulso estacional y / o tendencias de tiempo local que puedan aplicarse y crear un proceso de error.

Con dos procesos de error limpio, uno para cada una de las dos series originales, calcularía la correlación cruzada que luego podría usarse para medir el grado de asociación por encima y más allá de la estructura auto-correlativa dentro de cada serie. Esta solución se llama apropiadamente el doble enfoque de pre-blanqueamiento.

Ver:

IrishStat
fuente

Gracias por su respuesta. Pero, ¿estás diciendo que, por definición, el documento al que me referí no tiene valor? En segundo lugar, ¿significa esto que, por definición, dos series nunca pueden correlacionarse cuando la correlación tiene significado?

Pr0no

La correlación se puede calcular ya que es simple aritmética. Lo que no se puede calcular (fácilmente) es la probabilidad de que la correlación sea estadísticamente significativa. Piense en la primera vez que se le presentó el coeficiente de correlación. Fue en el contexto de N muestras independientes donde se calcularon dos características / valores para cada una de las N muestras independientes y la densidad articular fue bivariada normal.

IrishStat el

¿Por qué requiere normalidad articular, y no solo la misma distribución (simétrica)? es decir, ¿no funcionaría también la uniformidad conjunta?

naught101

@ NAUGHT101. Los valores críticos para el coeficiente de correlación están disponibles bajo el supuesto de normalidad conjunta y no definidos de otra manera.

IrishStat

@IrishStat Gracias por su respuesta editada. Es apreciado. Para las pruebas de normalidad, consulte i.imgur.com/SDOTE.png para ver los gráficos qq de las variables separadas. Después de que se eliminan los valores atípicos, un diagrama de pp, por lo que entiendo, que mide la normalidad conjunta, se ve así i.imgur.com/EZ3Ic.png ¿ Algún comentario?

Pr0no