Estoy tratando de correlacionar la edad (6-90 años) con el volumen de la voz (en dB). Sin embargo, mis datos no contienen ningún punto de datos en el rango de 20-50 años.
¿Qué medida de correlación es más apropiada con una brecha tan considerable y por qué? He estado usando Kendall Tau hasta ahora.
Tenga en cuenta que no estamos tratando con datos distribuidos bimodalmente aquí, sino con una brecha sustancial de datos faltantes en el rango de edad.
Respuestas:
Cree un diagrama de dispersión para verificar si tiene sentido suponer que un solo coeficiente de correlación es una descripción adecuada de la asociación entre las variables.
Por ejemplo, en estos datos (simulados) la correlación para las edades de 6 a 20 años es del 90%, para las edades de 50 años o más es del -70%, y en general es del 15%. En tal situación, informar un solo coeficiente de correlación sería tan engañoso como informar que el número promedio de patas entre las mascotas domésticas es cuatro cuando la mitad de las mascotas son peces y la otra mitad son arañas ...
La elección de cómo expresar la correlación es una preocupación secundaria y se basa en otros aspectos del conjunto de datos.
fuente