¿Qué medida de correlación se debe usar con una gran brecha (datos faltantes)?

8

Estoy tratando de correlacionar la edad (6-90 años) con el volumen de la voz (en dB). Sin embargo, mis datos no contienen ningún punto de datos en el rango de 20-50 años.

¿Qué medida de correlación es más apropiada con una brecha tan considerable y por qué? He estado usando Kendall Tau hasta ahora.

Tenga en cuenta que no estamos tratando con datos distribuidos bimodalmente aquí, sino con una brecha sustancial de datos faltantes en el rango de edad.

whuber
fuente
1
El título menciona que hay una brecha en una variable, pero desde el cuerpo parece que la brecha está en ambas variables para las que está tratando de calcular la correlación. Entonces, ¿qué datos faltan exactamente?
mpiktas

Respuestas:

8

Cree un diagrama de dispersión para verificar si tiene sentido suponer que un solo coeficiente de correlación es una descripción adecuada de la asociación entre las variables.

Por ejemplo, en estos datos (simulados) la correlación para las edades de 6 a 20 años es del 90%, para las edades de 50 años o más es del -70%, y en general es del 15%. En tal situación, informar un solo coeficiente de correlación sería tan engañoso como informar que el número promedio de patas entre las mascotas domésticas es cuatro cuando la mitad de las mascotas son peces y la otra mitad son arañas ...

Diagrama de dispersión de volumen frente a edad para 150 personas simuladas

La elección de cómo expresar la correlación es una preocupación secundaria y se basa en otros aspectos del conjunto de datos.

whuber
fuente
Whuber es sabio. Con una brecha tan grande, creo que casi nunca se justifica dar importancia a una sola medida de correlación.
Michael Bishop
(+1) ¡bonita anécdota de pez araña!
Dmitrij Celov