Correlación entre dos variables de tamaño desigual.

9

En un problema en el que estoy trabajando, tengo dos variables aleatorias, X e Y. Necesito averiguar qué tan estrechamente correlacionadas están las dos, pero son de diferentes dimensiones. El rango del espacio de filas de X es 4350, y el rango del espacio de filas de Y es sustancialmente mayor, en decenas de miles. Tanto X como Y tienen el mismo número de columnas.

Necesito una medida de correlación entre las dos variables, y la r de Pearson requiere que X e Y tengan la misma dimensión (al menos R requiere que las dos rv sean).

¿Tengo alguna esperanza de hacer una correlación entre estos dos, o debería encontrar alguna forma de eliminar las observaciones de Y?

 EDIT

Agregar información de los comentarios, que debe estar en la pregunta.

Supongo que olvidé mencionar esto. X e Y son precios de acciones. La empresa X ha sido pública durante un período de tiempo mucho más corto que Y. Quería decir qué tan correlacionados están los precios de X e Y. Definitivamente podría obtener una correlación por el período de tiempo en que X e Y existen. Quería saber si conocer los precios de las acciones durante varios años adicionales de Y que X no existía me dio información adicional.

Christopher Aden
fuente
2
Esto no parece que tenga observaciones (o "casos") en los que observe tanto una realización X como una Y. ¿Cómo saber qué X está asociado a qué Y?
Stephan Kolassa
1
Supongo que olvidé mencionar esto. X e Y son precios de acciones. La empresa X ha sido pública durante un período de tiempo mucho más corto que Y. Quería decir qué tan correlacionados están los precios de X e Y. Definitivamente podría obtener una correlación por el período de tiempo en que X e Y existen. Quería saber si conocer los precios de las acciones durante varios años adicionales de Y que X no existía me proporcionó información adicional.
Christopher Aden
2
@ Christopher Recomendaría que actualice su pregunta para reflejar su comentario anterior. Además, para que la correlación sea significativa, se requiere algo más que dimensiones iguales; las medidas reales deben provenir de los mismos casos, que en su caso probablemente sean los mismos puntos de tiempo.
Jeromy Anglim
2
Segundo comentario de Jeromy sobre la actualización de la pregunta ...
Stephan Kolassa
Otra pregunta: usted menciona que X e Y tienen el mismo número de columnas. ¿Sería uno cada uno? ¿O tiene varias series para X e Y (precios en diferentes bolsas de valores o algo así)?
Stephan Kolassa

Respuestas:

10

Ninguna cantidad de imputación, análisis de series de tiempo, modelos GARCH, interpolación, extrapolación u otros algoritmos sofisticados harán nada para crear información donde no existe (aunque pueden crear esa ilusión ;-). La historia del precio de Y antes de que X se hiciera pública es inútil para evaluar su correlación posterior.

A veces, los analistas (a menudo preparatorios para una OPI) usan información contable interna (o registros de transacciones de acciones privadas) para reconstruir retrospectivamente los precios hipotéticos de las acciones de X antes de que se hagan públicas. Es concebible que dicha información pueda usarse para mejorar las estimaciones de correlación, pero dada la naturaleza extremadamente tentativa de tales retrocesos, dudo que el esfuerzo sea de alguna ayuda, excepto inicialmente cuando solo hay unos pocos días o semanas de precios para X disponibles.

whuber
fuente
Aclaración: no mencioné GARCH para tratar el problema de datos faltantes (que por supuesto no tendría sentido), sino para mejorar un cálculo simple de correlación entre las series de tiempo en los momentos en que ambos existen.
Stephan Kolassa
@Stephan: OK. ¡Lo mencioné principalmente para mostrar que no te estaba ignorando!
whuber
1
Gracias whuber. Esto está en línea con lo que estaba buscando. No creo que la retransmisión sea de mucha utilidad (o factibilidad) para agregar un par de semanas adicionales de X cuando el marco de tiempo mutuo entre X e Y ya sea de unos 16 años.
Christopher Aden
2
@Christopher: !! Con 16 años (¿de cierres diarios?) Tiene datos suficientes no solo para encontrar una correlación, sino también para explorar cómo ha ido cambiando con el tiempo. (Esto creo que es el espíritu de la respuesta de @Stephan Kolassa.)
whuber
Estoy de acuerdo. El uso de técnicas para determinar qué valores habría tomado X antes de su salida a bolsa parece propenso a errores. También podría cuestionar la relevancia de los datos que tienen 16 años para predecir las tendencias modernas.
Christopher Aden
10

Entonces, el problema es uno de los datos faltantes (no todos los Y tienen una X correspondiente, donde la correspondencia se operacionaliza a través de puntos de tiempo). No creo que haya mucho que hacer aquí más que tirar la Y para la que no tienes una X y calcular la correlación en los pares completos.

Es posible que desee leer sobre series temporales financieras, aunque no tengo una buena referencia a mano en este momento (¿ideas, alguien?). Los precios de las acciones a menudo exhiben volatilidades variables en el tiempo, que pueden ser modeladas, por ejemplo, por GARCH . Es concebible que sus dos series temporales X e Y exhiban correlaciones positivas durante los períodos de baja volatilidad (cuando la economía crece, todos los precios de las acciones tienden a aumentar), pero correlaciones negativas cuando la volatilidad general es alta (el 11 de septiembre, las aerolíneas se hundieron mientras el dinero huyó a inversiones más seguras). Por lo tanto, calcular una correlación general puede depender demasiado de su marco de tiempo de observación.

ACTUALIZACIÓN: Creo que es posible que desee ver los modelos VAR (vector autorregresivo) .

Stephan Kolassa
fuente
Para referencias básicas de series de tiempo financieras, puede ver mi respuesta aquí: stats.stackexchange.com/questions/328/… . El texto de Tsay es uno de los más populares.
Shane
2

@ Jeromy Anglim especificó esto correctamente. Tener la información adicional cuando solo existía una de las series temporales no proporcionaría ningún valor aquí. Y, en principio, los datos deben muestrearse al mismo tiempo para que sean significativos utilizando medidas de correlación convencionales.

Como un problema más general, agregaría que existen técnicas para tratar con datos de series temporales espaciadas irregularmente. Puede buscar "correlación de series temporales espaciadas irregularmente". Algunos de los trabajos recientes se han realizado sobre "Volatilidad y correlación realizadas" (Andersen, Bollerslev, Diebold y Labys 1999) utilizando datos de alta frecuencia.

Shane
fuente
1

Dada la información adicional en sus comentarios, recomendaría mirar dos correlaciones. El primero sería los períodos de tiempo comunes en los que ambas compañías estaban presentes. Entonces, si uno fuera alrededor de 2 años antes, simplemente eliminaría esos datos y vería el resto. El segundo sería los períodos de tiempo relativos. En el segundo, no está correlacionando el tiempo real sino el tiempo medido desde que la empresa se hizo pública.

El primero estaría fuertemente influenciado por las fuerzas económicas generales compartidas dentro del mismo período de tiempo. Este último estaría influenciado por las propiedades compartidas por las empresas a medida que cambian después de la salida a bolsa.

Juan
fuente
0

Otra forma de resolver este problema es imputar los datos faltantes para las series más cortas utilizando un modelo de series de tiempo que puede o no tener sentido en un contexto particular.

En su contexto, la introducción de los precios de las acciones en el pasado significaría que se está haciendo la siguiente pregunta contrafáctica: ¿Cuál sería el precio de las acciones de la compañía X si se hubiera hecho público n años atrás en lugar de cuando realmente se hizo público? Tal imputación de datos podría realizarse teniendo en cuenta los precios de las acciones de las empresas relacionadas, las tendencias generales del mercado, etc. Sin embargo, dicho análisis puede no tener sentido o puede no ser necesario dados los objetivos de su proyecto.


fuente
0

Bueno, mucho depende de los supuestos que hagas. Si supone que los datos son estacionarios, más datos para la serie uno le darán una mejor estimación de su volatilidad. Esta estimación puede usarse para mejorar la estimación de correlación. Entonces, la siguiente declaración es incorrecta:

"La historia del precio de Y antes de que X se hiciera público es inútil para evaluar su correlación posterior"


fuente
Pensé en esto. En teoría puede funcionar, pero será muy robusto, por lo que es mejor evitarlo.
kjetil b halvorsen
-1

Esto suena como un problema para un algoritmo de aprendizaje automático. Por lo tanto, trataría de descubrir un conjunto de características que describan un cierto aspecto de la tendencia y entrenar en eso. Toda la teoría del aprendizaje automático es un poco compleja para este cuadro de respuestas, pero sería útil que lo leyeras.

Pero, sinceramente, creo que eso ya existe. Donde se puede ganar dinero, la gente piensa en ello.

Hans v. Arsch
fuente