Tengo un conjunto de datos con una variable dependiente e independiente. Ambas no son series de tiempo. Tengo 120 observaciones. El coeficiente de correlación es 0.43
Después de este cálculo, he agregado una columna para ambas variables con el promedio de cada 12 observaciones, lo que resulta en 2 nuevas columnas con 108 observaciones (pares). El coeficiente de correlación de estas columnas es 0.77
Parece que mejoré la correlación de esta manera. ¿Está permitido hacer esto? ¿Aumenté el poder explicativo de la variable independiente usando promedios?
regression
correlation
mean
predictor
cross-section
usuario2165379
fuente
fuente
Respuestas:
Echemos un vistazo a dos vectores, el primero es
y el segundo vector es
Calculando la correlación de Pearson obtendrás
Sin embargo, si toma el promedio de pares sucesivos para valores, ambos vectores son idénticos. Los vectores idénticos tienen correlación 1.
Este simple ejemplo ilustra una desventaja de su método.
Editar : para explicarlo de manera más general: el coeficiente de correlación se calcula de la siguiente manera.
fuente
El promedio puede ser atractivo o conveniente. También puede ser una fuente de engaño, en el peor de los engaños, así que pise con cuidado incluso cuando exista una razón clara para promediar.
Hay algunas situaciones en las que el promedio puede tener sentido. Por ejemplo, si las variaciones estacionales tienen poco o ningún interés, el promedio en valores anuales crea un conjunto de datos reducido en el que puede centrarse en esos valores anuales.
En varios campos, los investigadores podrían estar interesados en correlaciones a escalas bastante diferentes, por ejemplo, entre desempleo y delincuencia para individuos, condados, estados, países (sustituya los términos que tengan más sentido).
El interés, y a menudo también una fuente importante de problemas de inferencia, es interpretar lo que está sucediendo a diferentes escalas o niveles. Por ejemplo, una alta correlación entre la tasa de desempleo y la tasa de criminalidad en áreas no necesariamente significa que los desempleados tengan una mayor tendencia a ser delincuentes; necesita datos sobre las personas para tener claro eso. La provisión de datos puede ser extremadamente incómoda ya que los datos están disponibles solo en la escala menos interesante, tal vez por cuestiones de economía o confidencialidad.
Observo también que muchas mediciones son, en primer lugar, promedios en intervalos de tiempo pequeños y / o intervalos de espacio pequeños, por lo que los datos a menudo llegan en promedio en cualquier caso.
fuente