En un problema en el que estoy trabajando, tengo dos variables aleatorias, X e Y. Necesito averiguar qué tan estrechamente correlacionadas están las dos, pero son de diferentes dimensiones. El rango del espacio de filas de X es 4350, y el rango del espacio de filas de Y es sustancialmente mayor, en decenas de miles. Tanto X como Y tienen el mismo número de columnas.
Necesito una medida de correlación entre las dos variables, y la r de Pearson requiere que X e Y tengan la misma dimensión (al menos R requiere que las dos rv sean).
¿Tengo alguna esperanza de hacer una correlación entre estos dos, o debería encontrar alguna forma de eliminar las observaciones de Y?
EDIT
Agregar información de los comentarios, que debe estar en la pregunta.
Supongo que olvidé mencionar esto. X e Y son precios de acciones. La empresa X ha sido pública durante un período de tiempo mucho más corto que Y. Quería decir qué tan correlacionados están los precios de X e Y. Definitivamente podría obtener una correlación por el período de tiempo en que X e Y existen. Quería saber si conocer los precios de las acciones durante varios años adicionales de Y que X no existía me dio información adicional.
fuente
Respuestas:
Ninguna cantidad de imputación, análisis de series de tiempo, modelos GARCH, interpolación, extrapolación u otros algoritmos sofisticados harán nada para crear información donde no existe (aunque pueden crear esa ilusión ;-). La historia del precio de Y antes de que X se hiciera pública es inútil para evaluar su correlación posterior.
A veces, los analistas (a menudo preparatorios para una OPI) usan información contable interna (o registros de transacciones de acciones privadas) para reconstruir retrospectivamente los precios hipotéticos de las acciones de X antes de que se hagan públicas. Es concebible que dicha información pueda usarse para mejorar las estimaciones de correlación, pero dada la naturaleza extremadamente tentativa de tales retrocesos, dudo que el esfuerzo sea de alguna ayuda, excepto inicialmente cuando solo hay unos pocos días o semanas de precios para X disponibles.
fuente
Entonces, el problema es uno de los datos faltantes (no todos los Y tienen una X correspondiente, donde la correspondencia se operacionaliza a través de puntos de tiempo). No creo que haya mucho que hacer aquí más que tirar la Y para la que no tienes una X y calcular la correlación en los pares completos.
Es posible que desee leer sobre series temporales financieras, aunque no tengo una buena referencia a mano en este momento (¿ideas, alguien?). Los precios de las acciones a menudo exhiben volatilidades variables en el tiempo, que pueden ser modeladas, por ejemplo, por GARCH . Es concebible que sus dos series temporales X e Y exhiban correlaciones positivas durante los períodos de baja volatilidad (cuando la economía crece, todos los precios de las acciones tienden a aumentar), pero correlaciones negativas cuando la volatilidad general es alta (el 11 de septiembre, las aerolíneas se hundieron mientras el dinero huyó a inversiones más seguras). Por lo tanto, calcular una correlación general puede depender demasiado de su marco de tiempo de observación.
ACTUALIZACIÓN: Creo que es posible que desee ver los modelos VAR (vector autorregresivo) .
fuente
@ Jeromy Anglim especificó esto correctamente. Tener la información adicional cuando solo existía una de las series temporales no proporcionaría ningún valor aquí. Y, en principio, los datos deben muestrearse al mismo tiempo para que sean significativos utilizando medidas de correlación convencionales.
Como un problema más general, agregaría que existen técnicas para tratar con datos de series temporales espaciadas irregularmente. Puede buscar "correlación de series temporales espaciadas irregularmente". Algunos de los trabajos recientes se han realizado sobre "Volatilidad y correlación realizadas" (Andersen, Bollerslev, Diebold y Labys 1999) utilizando datos de alta frecuencia.
fuente
Dada la información adicional en sus comentarios, recomendaría mirar dos correlaciones. El primero sería los períodos de tiempo comunes en los que ambas compañías estaban presentes. Entonces, si uno fuera alrededor de 2 años antes, simplemente eliminaría esos datos y vería el resto. El segundo sería los períodos de tiempo relativos. En el segundo, no está correlacionando el tiempo real sino el tiempo medido desde que la empresa se hizo pública.
El primero estaría fuertemente influenciado por las fuerzas económicas generales compartidas dentro del mismo período de tiempo. Este último estaría influenciado por las propiedades compartidas por las empresas a medida que cambian después de la salida a bolsa.
fuente
Otra forma de resolver este problema es imputar los datos faltantes para las series más cortas utilizando un modelo de series de tiempo que puede o no tener sentido en un contexto particular.
En su contexto, la introducción de los precios de las acciones en el pasado significaría que se está haciendo la siguiente pregunta contrafáctica: ¿Cuál sería el precio de las acciones de la compañía X si se hubiera hecho público n años atrás en lugar de cuando realmente se hizo público? Tal imputación de datos podría realizarse teniendo en cuenta los precios de las acciones de las empresas relacionadas, las tendencias generales del mercado, etc. Sin embargo, dicho análisis puede no tener sentido o puede no ser necesario dados los objetivos de su proyecto.
fuente
Bueno, mucho depende de los supuestos que hagas. Si supone que los datos son estacionarios, más datos para la serie uno le darán una mejor estimación de su volatilidad. Esta estimación puede usarse para mejorar la estimación de correlación. Entonces, la siguiente declaración es incorrecta:
"La historia del precio de Y antes de que X se hiciera público es inútil para evaluar su correlación posterior"
fuente
Esto suena como un problema para un algoritmo de aprendizaje automático. Por lo tanto, trataría de descubrir un conjunto de características que describan un cierto aspecto de la tendencia y entrenar en eso. Toda la teoría del aprendizaje automático es un poco compleja para este cuadro de respuestas, pero sería útil que lo leyeras.
Pero, sinceramente, creo que eso ya existe. Donde se puede ganar dinero, la gente piensa en ello.
fuente