No transitividad de la correlación: correlaciones entre el género y el tamaño del cerebro y entre el tamaño del cerebro y el coeficiente intelectual, pero no hay correlación entre el género y el coeficiente intelectual

18

Encontré una siguiente explicación en un blog y me gustaría obtener más información sobre la no transitividad de la correlación:

Tenemos los siguientes hechos indiscutibles:

  • En promedio, hay una diferencia en el volumen cerebral entre hombres y mujeres.
  • Existe una correlación entre el coeficiente intelectual y el tamaño del cerebro; la correlación es 0.33 y por lo tanto corresponde al 10% de la variabilidad de IQ

De estas premisas 1 y 2, parece deducirse lógicamente de eso: las mujeres en promedio tienen un coeficiente intelectual más bajo que los hombres. ¡Pero es una falacia! En estadística, las correlaciones no son transitivas. La prueba es que solo necesita mirar los resultados de las pruebas de coeficiente intelectual, y muestran que el coeficiente intelectual de hombres y mujeres no difiere en promedio.

Me gustaría entender esta no transitividad de correlación un poco más profundo.

Si la correlación entre el coeficiente intelectual y el tamaño del cerebro fuera de 0.9 (que sé que no es (1)), ¿sería una falacia deducir que, en promedio, las mujeres tienen un coeficiente intelectual más bajo que los hombres?

Por favor, no estoy aquí para hablar sobre el coeficiente intelectual (y los límites de la prueba), el sexismo, el estereotipo de la mujer, la arrogancia, etc. (2). Solo quiero entender el razonamiento lógico detrás de la falacia.


(1) que sé que no lo es: los neandertales tenían cerebros más grandes que el homo sapiens, pero no eran más inteligentes;

(2) Soy una mujer y, en general, no me considero a mí misma ni a las otras mujeres menos inteligentes que los hombres, no me importa la prueba de coeficiente intelectual, porque lo que cuenta es el valor de las personas y no se basa en el habilidades intelectuales.


La fuente original en francés:

En les faits indiscutables suivantes:

  • Il ya une différence of volume cérébral en moyenne entre hommes et femmes
  • il ya une correlación entre QI et volume cérébral; la correlación es 0.33 y corresponde donc à 10% de la variabilidad

De ces prémisses 1 y 2, selle découler logiquement que: les femmes ont en moyenne un QI inférieur aux hommes.

Mais c'est une erreur de raisonnement! En estadística, las correlaciones no son pasivas transitorias. La preuve, c'est que pour en avoir le cœur net, es suficiente para observar los resultados de las pruebas de QI, y el ceux-ci montrent que les QI des hommes et des femmes ne diffèrent pas en moyenne.

ingrese la descripción de la imagen aquí

MagTun
fuente
55
No entiendo cómo estas declaraciones tienen algo que ver con la correlación (y referirse a la "transitividad" parece totalmente inapropiado en este contexto). La conclusión, después de todo, tiene que ver con una diferencia media. Esa estadística (que es un primer momento) es completamente independiente de la correlación (que se deriva de los segundos momentos). Incluso cuando la correlación es perfecta uno no puede sacar ninguna conclusión acerca de la diferencia de medias de la segunda variable basada en la diferencia de medias de la primera variable. ±1
whuber
55
Uno puede mostrar (Langford, Schwertman y Owens (2001)) que la correlación positiva es transitiva si la suma de las correlaciones al cuadrado es mayor que 1:ρXY2+ρYX2>1ρXZ>0
CloseToC
2
@whuber: Sí, pero esta es una pregunta no sobre la relación entre las medias de X e Y (tamaño del cerebro e IQ), es la pregunta sobre la relación entre las medias de Y en dos grupos diferentes ... Creo que es obvio que si la correlación entre el tamaño del cerebro y el cociente intelectual es perfecta (es decir, el cociente intelectual es una función lineal del tamaño del cerebro) y si el tamaño medio del cerebro difiere entre hombres y mujeres, entonces el cociente intelectual medio difiere entre hombres y mujeres.
ameba dice Reinstate Monica
2
@Amoeba Gracias por esa interpretación. La cita comienza a tener sentido (¡finalmente!). Pero referirse a esto como "transitividad de correlación" es tan oscuro como para ser francamente engañoso. (La frase está en el francés original, por lo que ni siquiera podemos culpar a la traducción.)
whuber
3
@amoeba Eso es plausible. ¡Pero creo que tienes que estirar un poco las cosas para llegar allí! La cita no caracteriza la relación entre el género y el tamaño del cerebro como una "correlación", solo como una diferencia de medias entre los dos grupos (que , por cierto, no es una medida estándar de correlación). Pero supongo que se supone que debemos entender la "correlación" en un sentido amplio como "falta de dependencia" o algo así.
whuber

Respuestas:

16

Sí, aún sería una falacia.

Aquí hay una figura muy simple que muestra cuatro situaciones diferentes. En cada caso, los puntos rojos representan mujeres, los puntos azules representan hombres, el eje horizontal representa el tamaño del cerebro y el eje vertical representa el coeficiente intelectual. Generé los cuatro conjuntos de datos de manera que:

  • siempre existe la misma diferencia en el tamaño medio del cerebro entre hombres ( ) y mujeres ( unidades son arbitrarias). Estas son medias de población, pero esta diferencia es lo suficientemente grande como para ser estadísticamente significativa con cualquier tamaño de muestra razonable;282228

  • siempre hay una diferencia cero en el coeficiente intelectual medio entre hombres y mujeres (ambos ), y también una correlación cero entre el género y el coeficiente intelectual;100

  • La fuerza de la correlación entre el tamaño del cerebro y el coeficiente intelectual varía como se muestra en la figura.

correlaciones

En la subtrama superior izquierda, la correlación dentro del género (calculada por separado sobre los hombres y por separado sobre las mujeres, luego promediada) es , como en su cita. En la subtrama superior derecha, la correlación general (sobre hombres y mujeres juntos) es . Tenga en cuenta que su presupuesto no especifica a qué se refiere el número de . En la subtrama inferior izquierda, la correlación dentro del género es , como en su ejemplo hipotético; en la subtrama inferior derecha, la correlación general es .0.3 0.33 0.9 0.90.30.30.330.90.9

Por lo tanto, puede tener cualquier valor de correlación, y no importa si se calcula en general o dentro del grupo. Cualquiera sea el coeficiente de correlación, es muy posible que haya una correlación cero entre el género y el coeficiente intelectual y una diferencia de género cero en el coeficiente intelectual medio.


Explorando la no transitividad

Exploremos el espacio completo de posibilidades, siguiendo el enfoque sugerido por @kjetil. Suponga que tiene tres variables y (sin pérdida de generalidad) suponga que la correlación entre y es y la correlación entre y es . La pregunta es: ¿cuál es el valor positivo mínimo posible de la correlación entre y ? ¿A veces tiene que ser positivo o siempre puede ser cero?x 1 x 2 a > 0 x 2 x 3 b > 0 λ x 1 x 3x1,x2,x3x1x2a>0x2x3b>0λx1x3

La matriz de correlación es y debe tener un determinante no negativo, es decir, lo que significa que tiene que estar entreSi ambas raíces son positivas, entonces el valor mínimo posible de es igual a la raíz más pequeña (¡y tiene que ser positivo!). Si cero está entre estas dos raíces, entonces puede ser cero.detR=-λ2+2abλ-(a2+b2-1)0,λab±

R=(1aλa1bλb1)
detR=λ2+2abλ(a2+b21)0,
λλλλ
ab±(1a2)(1b2).
λλλ

Podemos resolver este numérica y gráficamente la posible valor positivo mínima de para diferentes y :a bλab

Explorando la no transitividad

De manera informal, podríamos decir que las correlaciones serían transitiva si teniendo en cuenta que y , se podría concluir que . Vemos que para la mayoría de los valores y , puede ser cero, lo que significa que las correlaciones no son transitivos. Sin embargo, para algunos valores suficientemente altos de y , la correlación tiene que ser positiva , lo que significa que hay "cierto grado de transitividad" después de todo, pero restringido a correlaciones muy altas solamente. Tenga en cuenta que ambas correlaciones y tienen que ser altas.b > 0 λ > 0 a b λ a b λ a ba>0b>0λ>0abλabλ ab

Podemos establecer una condición precisa para esta "transitividad": como se mencionó anteriormente, la raíz más pequeña debe ser positiva, es decir, , que es equivalente a . Esta es una ecuación de un círculo! Y, de hecho, si observa la figura anterior, notará que la región azul forma un cuarto de círculo.a2+b2>1ab(1a2)(1b2)>0a2+b2>1

En su ejemplo específico, la correlación entre el género y el tamaño del cerebro es bastante moderada (quizás ) y la correlación entre el tamaño del cerebro y el coeficiente intelectual es , que está firmemente dentro de la región azul ( ) lo que significa que puede ser positivo, negativo o cero.b = 0.33 a 2 + b 2 < 1 λa=0.5b=0.33a2+b2<1λ


Figura relevante del estudio original

Querías evitar discutir el género y el cerebro, pero no puedo evitar señalar que al ver la figura completa del artículo original ( Gur et al. 1999 ), se puede ver que, si bien no hay una diferencia de género en el puntaje del coeficiente intelectual verbal, hay ¡Una diferencia obvia y significativa en la puntuación espacial del coeficiente intelectual! Compare las subtramas D y F.

Gur y col.

ameba dice Reinstate Monica
fuente
2
Me encantan esas tramas que generaste. Los del periódico, no tanto ...
shadowtalker
1
@ AleksandrBlekh: A decir verdad, no estoy seguro. "Mapa de calor"? ¿"Parcela de contorno" pero coloreada y sin contornos?
ameba dice Reinstate Monica
2
Gracias. Se está uniendo. Pero permítame señalar que (1) realmente no demuestra, en el primer conjunto de tramas, que las correlaciones con el género son cero; y (2) al final, aunque discuta la "transitividad" de la correlación, aún no ha explicado qué quiere decir con esta frase. Ciertamente no tiene el significado matemático habitual de una relación transitiva, por lo que alguna explicación valdría la pena. (Por cierto, al final, que parece estar discutiendo lugar de En otras palabras, de haber analizado. Absoluta correlación en lugar de correlación sí mismo.)λ|λ|λ
whuber
1
@whuber: Muy buenos comentarios, gracias. (1) ¡De hecho, la correlación con el género es cero por construcción! Supongo que debería cambiar esta cifra para informar las correlaciones de población en lugar de las de muestra. Como estoy generando los datos yo mismo, tengo control total sobre los parámetros de la población. (2) Por transitividad me refería informalmente a que las correlaciones positivas entre e , y y implican una correlación positiva entre y . Mi punto es que generalmente es incorrecto, pero correcto para correlaciones suficientemente fuertes. Voy a editar (3) Si y son ambos entonces .y y z x z a b 0 λ 0xyyzxzab0λ0
ameba dice Reinstate Monica
1
¡Gracias ameba por esta respuesta larga y detallada (e incluso agregué algo extra, muy bienvenido por cierto)! ¡Hace las cosas claras como el cristal! ¡El concepto es tan difícil de entender para mi cerebro estadísticamente inexperto y usted dio luz sobre el problema! ¡Muchas gracias por el tiempo que tardó en publicar su respuesta!
MagTun
8

x1=IQ,x2=genderx3

cor(x1,x2)=λ,cor(x1,x3)=cor(x2,x3)=ρ=0.9
λ
R=(1λρλ1ρρρ1)
ρ
detR=1(1ρ2)λ(λρ2)+ρ(λρρ)=1λ22ρ2+2λρ20,
ρ2λ+12ρ=0.9λ0.62

Actualizar:

En respuesta a los comentarios, he actualizado un poco la respuesta anterior. Ahora, ¿qué podemos hacer con esto? Según los cálculos anteriores, una correlación de 0.9 entre el coeficiente intelectual y el volumen cerebral (mucho más grande que el empírico). Entonces, la correlación entre género e IQ debe ser de al menos 0.62. Qué significa eso? En los comentarios, algunos dicen que esto no implica nada sobre las diferencias medias entre los géneros. ¡Pero eso no puede ser cierto! Sí, para las variables normalmente distribuidas podemos asignar correlación y medias sin relaciones. Pero el género es una variable cero-uno, para dicha variable no es una relación entre la correlación y diferencias de medias. Concretamente, el coeficiente intelectual está (digamos) normalmente distribuido, mientras que el género es discreto, cero uno. Supongamos que su mediaμ 1 = E ( x 1 | x 2 = 1p=0.5(de modo realista). Entonces, una correlación positiva (por ejemplo) significa que el género tiende a ser "más alto" (es decir, uno) si el coeficiente intelectual es más alto. ¡Eso no puede suceder sin que haya una diferencia media! Hagamos el álgebra: Primero, para simplificar el álgebra, centremos el coeficiente intelectual en cero en lugar de los 100 habituales. Eso no cambiará ninguna correlación o diferencia de medias. Deje y . Con esto significa ya que . Tenemos y es Bernoulli con .μ1=E(x1|x2=1)μ0=E(x1|x2=0)μ=E(x1)μ=0=μ1+μ0μ0=μ1x1N(μ=0,σ2)x2p=1/2

corr(x1,x2)=E(x1μ)E(x2p)σ12=Δ2σ
donde . Con el valor habitual (para IQ) esto da que la correlación es igual a . Entonces, una correlación de 0.62 significa una diferencia de IQ de 12.4. Entonces, los carteles que afirman la correlación no contienenΔ=μ1μ0=2μ1σ=10Δ/20La información sobre el coeficiente intelectual significa que la diferencia está mal. Eso sería cierto si el género fuera una variable continua, que obviamente no lo es. Tenga en cuenta que este hecho está relacionado con el hecho de que para la distribución binomial, la varianza es una función de la media (como debe ser, ya que solo hay un parámetro libre para variar). Lo que hemos hecho anteriormente es realmente extender esto a covarianza / correlación.

Pero, de acuerdo con el OP, el verdadero valor de . Entonces la desigualdad se convierte en que , entonces es un valor posible. Entonces, en el caso verdadero, no se pueden sacar conclusiones sobre las diferencias medias en el coeficiente intelectual de la correlación entre el coeficiente intelectual y el volumen cerebral.λ - 0.7822 λ =ρ=0.33λ0.7822λ=0

kjetil b halvorsen
fuente
1
¿Y cómo nos ayuda a deducir (aunque falsamente) ? ¿Me estoy perdiendo algo fundamental aquí? E ( x 1 ) E ( x 2 )cor(x1,x2)0.62E(x1)E(x2)
Khashaa
55
+1 - Pero creo que el concepto de la correlación entre el coeficiente intelectual de hombres y mujeres es algo confuso, ya que nunca se podría calcular dicho valor.
Andy W
1
¿Qué se supone que significa la correlación entre el coeficiente intelectual de hombres y mujeres?
ameba dice Reinstate Monica
sí, así es @amoeba! Puede que no haya usado las palabras correctas para expresar mi confusión (es difícil porque no estoy acostumbrado a las estadísticas), pero las variables son de hecho género, coeficiente intelectual y tamaño del cerebro.
MagTun
7

Esta es una situación en la que me gusta usar diagramas de ruta para ilustrar los efectos directos y los efectos indirectos , y cómo esos dos impactan las correlaciones generales.

Según la descripción original, tenemos una matriz de correlación a continuación. El tamaño del cerebro tiene una correlación de 0.3 con el coeficiente intelectual, la hembra y el coeficiente intelectual tienen una correlación de 0 entre sí. Completo la correlación negativa entre el tamaño femenino y el cerebro para que sea -0.3 (si tuviera que adivinar que es mucho más pequeño que eso, pero esto servirá para fines ilustrativos).

       Brain  Female  IQ
 Brain   1
Female  -0.3    1
    IQ   0.3    0      1

Si ajustamos un modelo de regresión donde el coeficiente intelectual es una función del tamaño del cerebro y ser mujer, podemos ilustrar esto en términos de un diagrama de ruta. He completado los coeficientes de regresión parcial en las flechas, y el nodo B representa el tamaño del cerebro y el nodo F representa la hembra.

ingrese la descripción de la imagen aquí

Ahora, qué loco es eso: al controlar el tamaño del cerebro, dadas estas correlaciones, las mujeres tienen una relación positiva con el coeficiente intelectual. ¿Por qué es esto, cuando la correlación marginal es cero? Según las reglas con diagramas de trayectoria lineal ( Wright, 1934 ), podemos descomponer la correlación marginal en función del efecto directo al controlar el tamaño del cerebro y el efecto indirecto:

TotalF,IQ=DirectF,IQ+IndirectF,B,IQ

En esta notación . Entonces, según la definición original, sabemos que este efecto total es cero. Así que ahora solo tenemos que descubrir el efecto directo y el efecto indirecto. El efecto indirecto en este diagrama es simplemente seguir la otra flecha de las mujeres al coeficiente intelectual a través del tamaño del cerebro, que es la correlación de las mujeres y el tamaño del cerebro multiplicada por la correlación parcial del tamaño del cerebro y el coeficiente intelectual.TotalF,IQ=Cor(F,IQ)

IndirectF,B,IQ=Cor(F,B)Cor(B,IQ|F)0.099=0.30.33

Debido a que el efecto total es cero, sabemos que el efecto directo debe ser simplemente el signo opuesto exacto y el tamaño del efecto indirecto , por lo tanto, el efecto directo es igual a 0.099 en este ejemplo. Ahora, aquí tenemos una situación al evaluar el coeficiente intelectual esperado de las mujeres, obtenemos dos respuestas diferentes, aunque probablemente no sea lo que inicialmente esperaba al especificar la pregunta. Al evaluar simplemente el coeficiente intelectual marginal esperado de las mujeres frente a los hombres, la diferencia es cero como la definió (al tener una correlación cero). Al evaluar la diferencia esperada condicional al tamaño del cerebro, las mujeres tienen un coeficiente intelectual más grande que los hombres.

Puede insertar en este ejemplo correlaciones más grandes entre el tamaño del cerebro y el coeficiente intelectual (o correlaciones más pequeñas entre el tamaño femenino y el del cerebro), dados los límites que kjetil muestra en su respuesta. Aumentar el primero hace que la disparidad entre el cociente intelectual condicional de mujeres y hombres sea aún mayor a favor de las mujeres, y disminuir el segundo reduce las diferencias.

Andy W
fuente
Si observa la imagen proporcionada, muestra una correlación positiva (y más fuerte que la de los hombres) del volumen cerebral de las mujeres con el coeficiente intelectual.
Alecos Papadopoulos
1
@Andy W Estoy totalmente avergonzado de hacer esta tonta pregunta, pero ¿qué software usaste para dibujar el gráfico de nodos?
mugen
1
Fue un trabajo rápido en inkscape @mugen. Tomando más tiempo, creo que los que hago usando Latex y Tikz son más agradables.
Andy W
+1 ¿Podría señalarme la teoría detrás de su segunda fórmula?
Aleksandr Blekh
2
@AleksandrBlekh: el artículo de Wright que cito es la fuente fundamental. Judea Pearl entra en comentarios más extensos en su libro Causality , aunque existen tratamientos más simples. (Para los modelos lineales, las descomposiciones a menudo reciben un tratamiento superficial en los libros de modelos de ecuaciones estructurales.)
Andy W
3

Para proporcionar la respuesta matemática puramente abstracta, denote el volumen del cerebro el índice IQ. Use para indexar hombres y para indexar mujeres. Supongamos que los siguientes son hechos:vq12

(1)E(v1)>E(v2)=βE(v1),0<β<1,ρ(v1,q1)>0,ρ(v2,q2)>0

Tenga en cuenta que, si bien el texto citado habla sobre la "correlación entre el volumen cerebral y el coeficiente intelectual" en general, la imagen suministrada hace una distinción con las dos líneas de tendencia (es decir, muestra la correlación para los dos subgrupos por separado). Entonces los consideramos por separado (que es la forma correcta de hacerlo).

Luego

ρ(v1,q1)>0Cov(v1,q1)>0E(v1q1)>E(v1)E(q1)

(2)E(v1q1)E(q1)>E(v1)

y

ρ(v2,q2)>0Cov(v2,q2)>0E(v2q2)>E(v2)E(q2)

(3)E(v2q2)βE(q2)>E(v1)

¿Las desigualdades obtenidas anteriormente requieren ??E(q1)>E(q2)

Para verificar esto, suponga, por el contrario, que(4)E(q1)=E(q2)=q¯

Entonces debe ser el caso que

(5)(2),(4)E(v1q1)q¯>E(v1)

y eso

(6)(3),(4)E(v2q2)βq¯>E(v1)

Bueno, ciertamente puede ser el caso, que las desigualdades y mantienen al mismo tiempo, por lo que "IQ igual en promedio" es perfectamente compatible con los supuestos iniciales que tomamos como hechos. De hecho, bien podría suceder que pudiéramos tener un coeficiente intelectual promedio más alto de las mujeres que de los hombres, por el mismo conjunto de hechos en .( 6 ) ( 1 )(5)(6)
(1)

En otras palabras, los supuestos / hechos de correlación en no imponen ninguna restricción sobre la relación entre los coeficientes intelectuales promedio. Todas las posibles relaciones entre y pueden mantenerse y ser compatibles con los supuestos en .E ( q 1 ) E ( q 2 ) ( 1 )(1)E(q1)E(q2)(1)

Alecos Papadopoulos
fuente
2
A pesar de todos los cálculos que se muestran aquí, todavía no veo cómo la correlación revela algo (o impone restricciones) sobre las relaciones entre los valores medios .
whuber
@whuber Toda la respuesta se trata de mostrar que no es así. Las últimas oraciones dicen exactamente eso. Agreguemos uno más a ese efecto.
Alecos Papadopoulos
Pero esto es absolutamente básico: ¡no se necesita una página completa de ecuaciones para mostrarlo! Es suficiente observar que los coeficientes de correlación son invariantes de ubicación, QED . ¿Estoy malinterpretando la pregunta?
whuber
1
@whuber Con el debido respeto y sin ofender a nadie, pero me temo que estás "malinterpretando" el nivel de conocimiento del OP. De lo contrario, la pregunta no se habría publicado.
Alecos Papadopoulos
44
Les animo, entonces, a reflexionar sobre si una respuesta que depende en gran medida de las ecuaciones matemáticas es apropiada para abordar carteles que parecen estar pidiendo exposiciones elementales de conceptos básicos. Este es un tema sutil porque a veces ese es exactamente el enfoque correcto. Además, el grado en que uno usa las matemáticas y cómo expone las ideas matemáticas puede ser una cuestión de gustos. Pero, en mi humilde opinión, este tipo de respuesta es efectiva solo cuando las matemáticas son claras y se centran constantemente en una idea esencial.
whuber