Probablemente, esta es una pregunta muy básica, pero parece que no puedo encontrar una respuesta sólida para ella. Espero aquí, puedo.
Actualmente estoy leyendo documentos como preparación para mi propia tesis de maestría. Actualmente, estoy leyendo un artículo que investiga la relación entre los tweets y las características del mercado de valores.
En una de sus hipótesis, proponen que "un mayor volumen de tweets está asociado con un aumento en el volumen de operaciones".
Yo esperaría que ellos, en las correlaciones por pares, que se correlaciona tweetVolume
con tradingVolume
, pero en cambio, el informe utilizando versiones logged: LN(tweetVolume)
y LN(tradingVolume)
.
Para mi tesis, he replicado esta parte de su artículo. He recopilado tweets de aproximadamente 100 empresas durante más de 6 meses ( tweetVolume
) y el volumen de negociación de acciones durante el mismo período de tiempo. Si correlaciono las variables absolutas, encuentro, r=.282, p.000
pero cuando uso las versiones registradas, encuentror=.488, p=.000
.
No entiendo porque investigadores a veces usan versiones registradas de sus variables y por qué la correlación parece mucho mayor si lo hace. ¿Cuál es el razonamiento aquí y por qué está bien usar variables registradas?
Tu ayuda es muy apreciada :-)
Respuestas:
Las razones para usar variables registradas se dividen en dos categorías: estadísticas y sustantivas.
Estadísticamente, si sus variables están sesgadas a la derecha (es decir, tienen una cola larga en el extremo superior), una medida como la correlación o la regresión puede verse muy influenciada por uno o unos pocos casos en el extremo superior en uno o ambos variables (valores atípicos, puntos de apalancamiento, puntos influyentes). Tomar el registro puede ayudar a esto al reducir o eliminar la inclinación.
Sustancialmente, algunos conceptos están mejor pensados en términos de razones que de diferencias. Tome las dos medidas de volumen que discute. Ahora, compare dos compañías: una, una pequeña empresa que cotiza en NASDAQ de la que pocas personas han oído hablar, y otra, una megacorporación. El primero recibirá muy pocos tweets por día. El último obtendrá muchos; Del mismo modo para el volumen de negociación. Supongamos (solo para elegir números) que la compañía A generalmente recibe 100 tweets al día y el último recibe 100,000.
Si los tweets de la compañía A aumentan de 100 a 500 (una diferencia de 400, una proporción de 5), eso es una gran noticia, algo debe estar sucediendo. Pero si la compañía B sube de 100,000 a 100,400 (una diferencia de 400, una relación muy cercana a 1), a nadie le importa. El equivalente aproximado sería si pasara de 100,000 a 500,000.
fuente