Tomar correlación antes o después de la transformación logarítmica de variables

9

¿Existe un principio general sobre si uno debe calcular la correlación de Pearson para dos variables aleatorias X e Y antes de tomar su transformación logarítmica o después? ¿Existe un procedimiento para probar cuál es más apropiado? Producen valores similares pero diferentes, ya que la transformación logarítmica es no lineal. ¿Depende de si X o Y están más cerca de la normalidad después del registro? Si es así, ¿por qué importa eso? ¿Y eso significa que uno debe hacer una prueba de normalidad en X e Y versus log (X) y log (Y) y en base a eso decidir si pearson (x, y) es más apropiado que pearson (log (x), log ( y))?

usuario9097
fuente
@vinux tiene una buena respuesta y proporciona un enlace informativo para comprender el papel de la normalidad en la correlación. Solo quería señalar esta pregunta: stats.stackexchange.com/questions/298, que es muy bueno para comprender qué hacen los registros en la regresión.
gung - Restablece a Monica

Respuestas:

5

log(X)log(Y)XYρSρS(X,Y)=ρS(log(X),log(Y))

Kavka
fuente
4

La correlación (pearson) mide una relación lineal entre dos variables continuas. No existe tal opción para (X, Y) o (log X, log Y). El diagrama de dispersión de las variables se puede utilizar para comprender la relación.

El siguiente enlace puede responder con respecto al problema de normalidad. enlace

vinux
fuente
-3

La correlación de Pearson es para pruebas paramétricas y es más poderosa que la prueba sin parametirc. Por lo tanto, optamos por utilizar la transformación antes de cualquier procedimiento no paramétrico. Transforme sus datos y obtenga la correlación de Pearson. Eso es.

abi
fuente
@ abi: Dependiendo del tamaño de la muestra, los coeficientes de Spearman y Kendall son relativamente similares en términos de potencia y MSE a los de Pearson con datos distribuidos normalmente, y son muy superiores con una contaminación de datos incluso leve.
Patrick