¿Por qué no está bien hacer una correlación de Pearson en datos de proporción?

10

Un módulo en línea que estoy estudiando afirma que nunca se debe usar la correlación de Pearson con datos de proporción. Por qué no?

O, si a veces está bien o siempre está bien, ¿por qué?

user1205901 - Restablecer Monica
fuente
3
¿Qué dice esto y en qué contexto? "Nunca" parece demasiado fuerte a menos que estén hablando de una situación muy limitada. Puede ser que quien lo escribió esté simplemente equivocado, pero sin contexto, ¿cómo podemos adivinar?
Glen_b -Reinstala a Monica el
2
El módulo en línea es propietario y no puedo vincularlo. Sin embargo, he encontrado un video que dice lo mismo: australianbioinformatics.net/the-pipeline/2013/3/19/… . Tanto el módulo que he visto como este video indican que no hay contextos en los que las proporciones de correlación sean aceptables.
user1205901 - Restablecer Monica
44
"Nunca" es demasiado fuerte. Hay razones para ser cautelosos al interpretar los coeficientes de correlación que involucran proporciones, especialmente aquellos basados ​​en recuentos pequeños. Pero el mismo análisis que respalda esas razones también muestra que cuando las proporciones se basan en grandes recuentos y las proporciones están "suficientemente lejos" de o , entonces los coeficientes de correlación no son problemáticos. Además, siempre se puede informar un coeficiente de correlación para cualquier conjunto de datos emparejados (donde ambos componentes presentan variación) como una estadística resumen (descriptiva). 10 01
whuber

Respuestas:

6

Esto es para un caso cuando varias variables suman 1, en cada observación. Mi respuesta será nivel de intuición; Esto es intencional (y tampoco soy un experto en datos de composición).

Tengamos iid (por lo tanto, correlacionado con cero) variables de valor positivo que luego resumimos y recalculamos como proporciones de esa suma. Entonces,

  • En el caso de dos variables V1 V2 , si se dice que V1 varía libremente, entonces V2 no tiene espacio para la libertad (ya que V1 + V2 = constante) y está completamente fijo; cuanto mayor es V1, menor es V2, menor es V1, mayor es V2. Su correlación es pero y siempre es así.-1
  • En el caso de 3 variables V1 V2 V3 , si se dice que V1 varía libremente, entonces V2 + V3 es fijo; lo que quiere decir que en el interior (V2 + V3) cada una de las dos variables todavía está parcialmente libre: en promedio , se fijan veces cada una, se fijan por completo en total. Entonces, si cualquiera de las tres variables se toma como libre (como tomamos V1), se espera que cualquiera de las dos restantes sea fija. De modo que la correlación entre ellos es . Esta es la correlación esperada ; Puede variar de una muestra a otra.11/ /2- 0.51/2-0.5 0.5
  • En el caso de 4 variables V1 V2 V3 V4 por el mismo razonamiento tenemos que, si tomamos cualquiera de las cuatro como libres, se espera que cualquiera de las restantes sea fija; entonces, la correlación esperada entre cualquier par de los cuatro, uno tan libre como el otro como fijo, es .1/ /3- ,3331/ /3-0,333
  • A medida que aumenta el número de variables (inicialmente iid), la correlación por pares esperada crece de negativa a , y su variación de muestra a muestra aumenta.0 0
ttnphns
fuente
De acuerdo, pero supongo que el interés está en los pares V1, V2, cada V sumando 1 (100%), pero sin restricciones en el V individual, excepto que cada una es una fracción.
Nick Cox
each V summing to 1 ( 100%)¿Disculpe? No te entendi. No pongo ninguna restricción al V individual, solo soy una fracción. Sin embargo, la restricción inicial fue que mi ejemplo supone correlaciones cero antes de convertir V en fracciones.
ttnphns
¿Quiso decir que cada V tiene valores que suman 1 ("verticalmente")? No, quise decir "horizontalmente", a través de variables. Pero desafortunadamente, el OP no aclaró el punto en su pregunta. Entonces lo tomé como lo tomé.
ttnphns
Si; es decir, creo que lo que generalmente se quiere decir aquí, pero la pregunta no es especialmente clara.
Nick Cox
1
@ttnphns Vi una declaración de que nunca se debe hacer una correlación de Pearson con dos variables medidas como proporciones. Intenté aclarar esto editando el OP para resaltar la palabra 'nunca'. El video hace la misma declaración en su título ("¡No correlacione las proporciones!"), Aunque solo discuten esto en el contexto de los datos de composición. Deliberadamente dejé el contexto sin definir porque mi fuente declaró que las correlaciones de Pearson no deberían usarse en datos de proporción en ningún contexto. Sin embargo, parece que la respuesta a mi pregunta es: "Correlacionar proporciones está bien, excepto en algunos contextos".
user1205901 - Restablecer Monica
10

El enlace de video de su comentario establece el contexto al de las composiciones, que también pueden denominarse mezclas. En estos casos, la suma de la proporción de cada componente se suma a 1. Por ejemplo, el aire es 78% de nitrógeno, 21% de oxígeno y 1% de otro (el total es 100%). Dado que la cantidad de un componente está completamente determinada por los demás, cualquiera de los dos componentes tendrá una relación multilineal perfecta. Para el ejemplo aéreo, tenemos:

X1+X2+X3=1

por lo que entonces:

X1=1-X2-X3

X2=1-X1-X3

X3=1-X1-X2

Entonces, si conoce dos componentes, el tercero se conoce de inmediato.

En general, la restricción sobre las mezclas es

yo=1qXyo=1

Xyo

Puede calcular una correlación entre dos componentes, pero no es informativa , ya que siempre están correlacionados. Puede leer más sobre análisis de composición en Análisis de datos medidos como composición proporcional .

Puede usar la correlación cuando los datos de proporción provienen de diferentes dominios. Digamos que su respuesta es una fracción de píxeles muertos en una pantalla LCD. Podría intentar correlacionar esto con, por ejemplo, la fracción de helio utilizada en un paso de procesamiento químico de la pantalla.

blackeneth
fuente
Ya veo, erróneamente pensé que las composiciones eran solo un ejemplo. ¿Es justo decir que las proporciones de correlación generalmente no son problemáticas a menos que haya una situación en la que las composiciones 'fuercen' a que exista una correlación?
user1205901 - Restablecer Monica
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationshipno está claro. ¿Puedes ampliarlo?
ttnphns
Tampoco entiendo esta respuesta. En su ejemplo de 3 variables, cada una está "determinada" por DOS, pero la correlación de Pearson solo analiza una variable en relación con UNA. Entonces, por ejemplo, si observa el nitrógeno frente al oxígeno, podría tener un conjunto de datos (nitrógeno, oxígeno) [(0.78, 0.21), (0.20, 0.41), (0.44, 0.44)], y podría hacer un coeficiente de correlación válido cálculo sobre esos datos (y ciertamente no es co-lineal). El coeficiente de correlación de Pearson no conoce ni le importa "otro" allí ...
Jason C
3
Como una especie de meta-comentario, no esperaría ver material inaccesible citado como autoridad para ningún punto estadístico, no es que esté proponiendo hacerlo. Entonces, es simple en un nivel: hay una literatura sobre análisis de datos de composición, que es dónde buscar; No soy un experto, por lo que no puedo decir qué es lo que tiene más autoridad en la correlación, pero mi instinto es que la advertencia es exagerada. El uso descriptivo de la correlación puede ser útil. Es solo que las inferencias son complicadas por la restricción de los totales.
Nick Cox
Creo que la "fracción de píxeles muertos" estaría bien si estuviéramos recopilando mediciones de pantallas LCD que tienen el mismo número de píxeles y la presión de gas en el proceso se mantuvo constante. Pero una vez que comience a permitir que cambien los denominadores de estas proporciones, ¿quién puede decir cuál es el efecto del helio?
David Lovell
5

Esta es una pregunta profunda, y con algunas sutilezas que deben ser expresadas. Haré mi mejor esfuerzo, pero a pesar de que he publicado sobre este tema ( Proporcionalidad: una alternativa válida a la correlación de datos relativos ), siempre estoy preparado para sorprenderme con las nuevas ideas sobre el análisis de datos que contienen solo información relativa.

Como han señalado los contribuyentes a este hilo, la correlación es notoria (en algunos círculos) por no tener sentido cuando se aplica a los datos de composición que surgen cuando un conjunto de componentes está obligado a sumarse a una constante (como vemos con proporciones, porcentajes, partes por millón, etc.).

Karl Pearson acuñó el término correlación espuria con esto en mente. (Nota: el popular sitio de correlación espuria de Tyler Vigen no se trata tanto de la correlación espuria como de la falacia de " correlación implica causalidad ").

La sección 1.7 de Aitchison's A Concise Guide to Compositional Data Analysis proporciona una ilustración clásica de por qué la correlación es una medida inapropiada de asociación para datos de composición (por conveniencia, citada en esta Información complementaria .

Los datos de composición surgen no solo cuando se hace un conjunto de componentes no negativos para sumar una constante; se dice que los datos son compositivos siempre que solo contengan información relativa.

Creo que el principal problema con la correlación de datos que solo contienen información relativa está en la interpretación del resultado. Este es un problema que podemos ilustrar con una sola variable; Digamos "donas producidas por dólar de PIB" en todas las naciones del mundo. Si el valor de una nación es más alto que otro, es porque

  • su producción de donas es mayor?
  • su PIB es menor?

...¿quién puede decir?

Por supuesto, como la gente comenta sobre este hilo, uno puede calcular las correlaciones de este tipo de variables como una variable descriptiva. Pero, ¿qué significan esas correlaciones?

David Lovell
fuente
3

Tenía la misma pregunta. Encontré esta referencia en biorxiv útil:

Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"Proporcionalidad: una alternativa válida a la correlación para datos relativos"

En la información de respaldo de este documento (Lovell, David, et al.; Doi: dx.doi.org/10.1101/008417), los autores mencionan que las correlaciones entre abundancias relativas no proporcionan información en algunos casos. Dan un ejemplo de abundancia relativa de dos expresiones de ARNm. En la Figura S2, las abundancias relativas de los dos ARNm diferentes están perfectamente correlacionadas negativamente, a pesar de que la correlación de estos dos ARNm en valores absolutos no está relacionada negativamente (puntos verdes y puntos morados).

Quizás te pueda ayudar.

demandar
fuente
2
Gracias por su sugerencia No lo dejé claro. Al respaldar la información de este documento (Lovell, David, et al.; Doi: dx.doi.org/10.1101/008417 ), los autores mencionan que las correlaciones entre abundancias relativas no proporcionan información en algunos casos. Dan un ejemplo de abundancia relativa de dos expresiones de ARNm. En la Figura S2, las abundancias relativas de los dos ARNm diferentes están perfectamente correlacionadas negativamente, a pesar de que la correlación de estos dos ARNm en valores absolutos no es negativamente (puntos verdes y puntos morados).
demandar el
@shu tal vez podrías decir por qué este artículo te ha ayudado con un problema similar y resumirlo ... Pegar el enlace no es una respuesta, así que por favor explique un poco más. La razón de esto también se debe a que los enlaces mueren y si desea que su respuesta sea útil para alguien en el futuro, debe hacerlo coherente. Por supuesto, proporcionar referencias adicionales a su respuesta es un buen hábito.
Tim