¿Cómo explicarías la covarianza a alguien que solo entiende la media?

207

... suponiendo que pueda aumentar su conocimiento sobre la varianza de una manera intuitiva ( Entendiendo la "varianza" intuitivamente ) o diciendo: Es la distancia promedio de los valores de datos de la "media", y dado que la varianza está en cuadrado unidades, tomamos la raíz cuadrada para mantener las unidades iguales y eso se llama desviación estándar.

Supongamos que todo esto está articulado y (con suerte) entendido por el "receptor". Ahora, ¿qué es la covarianza y cómo se explicaría en inglés simple sin el uso de términos / fórmulas matemáticas? (Es decir, explicación intuitiva.)

Tenga en cuenta: conozco las fórmulas y las matemáticas detrás del concepto. Quiero poder "explicar" lo mismo de una manera fácil de entender, sin incluir las matemáticas; es decir, ¿qué significa "covarianza"?

Doctor
fuente
1
@ Xi'an: ¿cómo lo definiría exactamente mediante una regresión lineal simple ? Realmente me gustaría saber ...
PhD
3
Suponiendo que ya tiene un diagrama de dispersión de sus dos variables, x vs. y, con origen en (0,0), simplemente dibuje dos líneas en x = media (x) (vertical) e y = media (x) (horizontal): usando este nuevo sistema de coordenadas (el origen está en (mean (x), mean (y)), ponga un signo "+" en los cuadrantes superior derecho e inferior izquierdo, un signo "-" en los otros dos cuadrantes; obtuviste el signo de la covarianza, que es básicamente lo que dijo @Peter . Escalar las unidades x e y (por SD) conduce a un resumen más interpretable, como se discute en el siguiente hilo .
chl
1
@chl: ¿podría publicar eso como respuesta y tal vez usar gráficos para representarlo?
PhD
Encontré el video en este sitio web para ayudarme, ya que prefiero las imágenes a las explicaciones abstractas. Sitio web con video Específicamente esta imagen :! [ Ingrese la descripción de la imagen aquí ] ( i.stack.imgur.com/xGZFv.png )
Karl Morrison

Respuestas:

375

A veces podemos "aumentar el conocimiento" con un enfoque inusual o diferente. Me gustaría que esta respuesta sea accesible para los niños de kindergarten y que también se divierta, para que todos saquen sus crayones

Dados los datos emparejados , dibuje su diagrama de dispersión. (Los estudiantes más jóvenes pueden necesitar un maestro para producir esto para ellos. :-) Cada par de puntos , en esa gráfica determina un rectángulo: es el rectángulo más pequeño, cuyos lados son paralelos al ejes, que contienen esos puntos. Por lo tanto, los puntos están en las esquinas superior derecha e inferior izquierda (una relación "positiva") o están en las esquinas superior izquierda e inferior derecha (una relación "negativa").(x,y)(xi,yi)(xj,yj)

Dibuja todos los rectángulos posibles. Colóquelos de manera transparente, haciendo que los rectángulos positivos sean rojos (digamos) y los rectángulos negativos "anti-rojos" (azul). De esta manera, donde los rectángulos se superponen, sus colores se mejoran cuando son iguales (azul y azul o rojo y rojo) o se cancelan cuando son diferentes.

Rectángulos positivos y negativos

( En esta ilustración de un rectángulo positivo (rojo) y negativo (azul), la superposición debe ser blanca; desafortunadamente, este software no tiene un verdadero color "anti-rojo". La superposición es gris, por lo que oscurecerá el trama, pero en general la cantidad neta de rojo es correcta ) .

Ahora estamos listos para la explicación de la covarianza.

La covarianza es la cantidad neta de rojo en el gráfico (tratando el azul como valores negativos).

Aquí hay algunos ejemplos con 32 puntos binormales extraídos de distribuciones con las covarianzas dadas, ordenadas de más negativas (más azules) a las más positivas (más rojas).

Gráficos de covarianza, actualizados 2019

Se dibujan en ejes comunes para hacerlos comparables. Los rectángulos están ligeramente delineados para ayudarte a verlos. Esta es una versión actualizada (2019) del original: utiliza un software que cancela adecuadamente los colores rojo y cian en rectángulos superpuestos.

Vamos a deducir algunas propiedades de covarianza. La comprensión de estas propiedades será accesible para cualquiera que haya dibujado algunos de los rectángulos. :-)

  • Bilinealidad. Debido a que la cantidad de rojo depende del tamaño de la gráfica, la covarianza es directamente proporcional a la escala en el eje xy a la escala en el eje y.

  • Correlación. La covarianza aumenta a medida que los puntos se aproximan a una línea inclinada hacia arriba y disminuye a medida que los puntos se aproximan a una línea inclinada hacia abajo. Esto se debe a que en el primer caso la mayoría de los rectángulos son positivos y en el último caso, la mayoría son negativos.

  • Relación con asociaciones lineales. Debido a que las asociaciones no lineales pueden crear mezclas de rectángulos positivos y negativos, conducen a covarianzas impredecibles (y no muy útiles). Las asociaciones lineales se pueden interpretar completamente mediante las dos caracterizaciones anteriores.

  • Sensibilidad a los valores atípicos. Un valor atípico geométrico (un punto alejado de la masa) creará muchos rectángulos grandes en asociación con todos los demás puntos. Solo puede crear una cantidad neta de rojo positivo o negativo en la imagen general.

Por cierto, esta definición de covarianza difiere de la habitual solo por una constante universal de proporcionalidad (independiente del tamaño del conjunto de datos). Los matemáticamente inclinados no tendrán problemas para realizar la demostración algebraica de que la fórmula dada aquí es siempre el doble de la covarianza habitual.

whuber
fuente
92
+1 Wow. Esto incluso funciona para explicar la covarianza a aquellos que ya pensaban que sabían lo que era.
Aaron
77
+1 Realmente disfruto leyendo tu respuesta. Dibujaré algunos rectángulos y dejaré que mi hijo los pinte :)
chl
18
Ahora bien, si sólo todos los conceptos estadísticos preliminares podrían presentarse a los estudiantes de esta manera lúcida ...
MannyG
44
Esto es hermoso. Y muy muy claro.
Benjamin Mako Hill
44
@fcoppens De hecho, hay una explicación tradicional que procede como usted sugiere. Pensé en este porque no quería presentar una idea innecesaria, es decir, construir el centroide . Eso haría que la explicación fuera inaccesible para el niño de cinco años con una caja de crayones. Algunas de las conclusiones que saqué al final tampoco serían inmediatas. Por ejemplo, ya no sería tan obvio que la covarianza es sensible a ciertos tipos de valores atípicos. (x¯,y¯)
whuber
61

xy

Es útil recordar la fórmula básica (simple de explicar, no es necesario hablar sobre las expectativas matemáticas para un curso introductorio):

cov(x,y)=1ni=1n(xix¯)(yiy¯)

(xi,yi)x¯y¯

y=1.2x+εy=0.1x+εεSD=2x[0,20]

ingrese la descripción de la imagen aquí

xy(0,0)(x¯,y¯)

   +  -
+ 30  2
-  0 28

xiyiy¯xyb=Cov(x,y)/Var(x)

xi

   +  -
+ 18 14
- 12 16

xiyi

xy(x/10,y)(x,y/10)xy(x,y)(x¯,y¯)xy

chl
fuente
28

La covarianza es una medida de cuánto sube una variable cuando sube la otra.

Peter Flom
fuente
1
¿Está siempre en la 'misma' dirección? Además, ¿se aplica también a las relaciones inversas (es decir, cuando una sube, la otra baja)?
PhD
44
@nupul Bueno, lo contrario de "arriba" es "abajo" y lo contrario de "positivo" es "negativo". Traté de dar una respuesta de una oración. La tuya es mucho más completa. Incluso su "cómo cambian dos variables juntas" es más completo, pero, creo, un poco más difícil de entender.
Peter Flom
1
+1 por ajustarlo en una sola oración simple, pero ¿no es esa correlación? Quiero decir, sé mayor cov => mayor corr, pero con esa oración, esperaría algo como "80%" como respuesta, que corresponde a corr = 0.8. ¿Cov no describe también la varianza dentro de los datos? es decir. "La covarianza es proporcional a cuánto sube una variable cuando sube la otra, y también proporcional a la difusión de los datos en ambas variables", o algo así?
naught101
44
Así es, Peter, por eso @ naught101 hizo ese comentario: tu descripción suena como una tasa de cambio, cuyas unidades serán [unidades de una variable] / [unidades de la otra variable] (si la interpretamos como una derivada ) o simplemente serán [unidades de una variable] (si interpretamos como una diferencia pura). Esos no son covarianza (cuya unidad de medida es el producto de las unidades para las dos variables) ni correlación (que no tiene unidades).
whuber
1
XY1,YXY
12

Yo estoy respondiendo a mi propia pregunta, pero pensé que sería genial para la gente que viene a través de este post para ver algunas de las explicaciones de esta página .

Estoy parafraseando una de las respuestas muy bien articuladas (por un usuario 'Zhop'). Lo estoy haciendo en caso de que ese sitio se cierre o la página se elimine cuando alguien eones de ahora en adelante acceda a esta publicación;)

La covarianza es una medida de cuánto cambian dos variables juntas. Compare esto con la varianza, que es solo el rango en el que varía una medida (o variable).

Al estudiar los patrones sociales, puede plantear la hipótesis de que es probable que las personas más ricas sean más educadas, por lo que trataría de ver qué tan cerca se unen las medidas de riqueza y educación. Usaría una medida de covarianza para determinar esto.

...

No estoy seguro de lo que quieres decir cuando preguntas cómo se aplica a las estadísticas. Es una medida que se enseña en muchas clases de estadísticas. ¿Querías decir, cuándo deberías usarlo?

Lo usa cuando quiere ver cuánto cambian dos o más variables en relación entre sí.

Piensa en las personas en un equipo. Mira cómo varían en ubicación geográfica en comparación entre sí. Cuando el equipo juega o practica, la distancia entre los miembros individuales es muy pequeña y diríamos que están en el mismo lugar. Y cuando su ubicación cambia, cambia para todas las personas juntas (por ejemplo, viajar en un autobús a un juego). En esta situación, diríamos que tienen un alto nivel de covarianza. Pero cuando no están jugando, es probable que la tasa de covarianza sea bastante baja, porque todos van a diferentes lugares a diferentes velocidades.

Por lo tanto, puede predecir la ubicación de un miembro del equipo, en función de la ubicación de otro miembro del equipo cuando están practicando o jugando un juego con un alto grado de precisión. La medición de covarianza estaría cerca de 1, creo. Pero cuando no están practicando o jugando, tendrías una posibilidad mucho menor de predecir la ubicación de una persona, en función de la ubicación de un miembro del equipo. Sería cercano a cero, probablemente, aunque no cero, ya que a veces los miembros del equipo serán amigos y podrían ir a lugares juntos en su propio tiempo.

Sin embargo, si seleccionó al azar individuos en los Estados Unidos e intentó usar uno de ellos para predecir las ubicaciones del otro, probablemente encontraría que la covarianza era cero. En otras palabras, no hay absolutamente ninguna relación entre la ubicación de una persona seleccionada al azar en los EE. UU. Y la de otra.

Agregar otro (por 'CatofGrey') que ayuda a aumentar la intuición:

En teoría de la probabilidad y estadística, la covarianza es la medida de cuánto varían dos variables aleatorias juntas (a diferencia de la varianza, que mide cuánto varía una sola variable).

Si dos variables tienden a variar juntas (es decir, cuando una de ellas está por encima de su valor esperado, entonces la otra variable también tiende a estar por encima de su valor esperado), entonces la covarianza entre las dos variables será positiva. Por otro lado, si una de ellas está por encima de su valor esperado y la otra variable tiende a estar por debajo de su valor esperado, entonces la covarianza entre las dos variables será negativa.

¡Estos dos juntos me han hecho entender la covarianza como nunca antes la había entendido! ¡¡Simplemente asombroso!!

Doctor
fuente
15
Aunque estas descripciones son cualitativamente sugestivas, lamentablemente son incompletas: ni distinguen la covarianza de la correlación (la primera descripción parece confundir a las dos, de hecho), ni ponen de manifiesto el supuesto fundamental de la co-variación lineal . Además, ninguno aborda el aspecto importante de que la covarianza depende (linealmente) de la escala de cada variable.
whuber
@whuber - de acuerdo! Y por lo tanto, no he marcado la mía como la respuesta :) (todavía no;)
PhD
12

Realmente me gusta la respuesta de Whuber, así que reuní algunos recursos más. La covarianza describe tanto hasta qué punto se extienden las variables y la naturaleza de su relación.

La covarianza usa rectángulos para describir qué tan lejos está una observación de la media en un gráfico de dispersión:

  • Si un rectángulo tiene lados largos y un ancho alto o lados cortos y un ancho corto, proporciona evidencia de que las dos variables se mueven juntas.

  • Si un rectángulo tiene dos lados que son relativamente largos para esas variables, y dos lados que son relativamente cortos para la otra variable, esta observación proporciona evidencia de que las variables no se mueven juntas muy bien.

  • Si el rectángulo está en el segundo o cuarto cuadrante, cuando una variable es mayor que la media, la otra es menor que la media. Un aumento en una variable está asociado con una disminución en la otra.

Encontré una visualización genial de esto en http://sciguides.com/guides/covariance/ , explica qué es la covarianza si solo conoces la media.

arthur.00
fuente
77
+1 Buena explicación (especialmente ese resumen introductorio de una oración). El enlace es interesante. Como no tiene archivo en la máquina Wayback, es probable que sea nuevo. Debido a que es muy similar a mi respuesta (de tres años), hasta la elección de rojo para las relaciones positivas y azules para las negativas, sospecho que es un derivado (no atribuido) del material en este sitio.
whuber
44
El enlace "visualización genial" ha muerto ....
whuber
1
@MSIS Eso no es posible de resolver, porque hay una gran cantidad de posibles distribuciones en el círculo. Pero si se refiere a la distribución uniforme , no hay nada que calcular, porque (como recuerdo haber comentado en su hilo en stats.stackexchange.com/q/414365/919 ) el coeficiente de correlación debe ser igual a su propio negativo, QED.
whuber
1
XX0XX2X1,XX2:11
whuber
1
α,a<αb((ba)mod2π)/(2π).
10

Aquí hay otro intento de explicar la covarianza con una imagen. Cada panel en la imagen a continuación contiene 50 puntos simulados a partir de una distribución bivariada con correlación entre x & y de 0.8 y variaciones como se muestra en las etiquetas de fila y columna. La covarianza se muestra en la esquina inferior derecha de cada panel.

Diferentes covarianzas, todas con correlación = 0.8

Cualquier persona interesada en mejorar esto ... aquí está el código R:

library(mvtnorm)

rowvars <- colvars <- c(10,20,30,40,50)

all <- NULL
for(i in 1:length(colvars)){
  colvar <- colvars[i]
  for(j in 1:length(rowvars)){
    set.seed(303)  # Put seed here to show same data in each panel
    rowvar <- rowvars[j]
    # Simulate 50 points, corr=0.8
    sig <- matrix(c(rowvar, .8*sqrt(rowvar)*sqrt(colvar), .8*sqrt(rowvar)*sqrt(colvar), colvar), nrow=2)
    yy <- rmvnorm(50, mean=c(0,0), sig)
    dati <- data.frame(i=i, j=j, colvar=colvar, rowvar=rowvar, covar=.8*sqrt(rowvar)*sqrt(colvar), yy)
    all <- rbind(all, dati)
  }
}
names(all) <- c('i','j','colvar','rowvar','covar','x','y')
all <- transform(all, colvar=factor(colvar), rowvar=factor(rowvar))
library(latticeExtra)
useOuterStrips(xyplot(y~x|colvar*rowvar, all, cov=all$covar,
                      panel=function(x,y,subscripts, cov,...){
                        panel.xyplot(x,y,...)
                        print(cor(x,y))
                        ltext(14,-12, round(cov[subscripts][1],0))
                      }))
Kevin Wright
fuente
10

Me encantó la respuesta de @whuber, antes solo tenía una vaga idea en mi mente de cómo se podía visualizar la covarianza, pero esas gráficas rectangulares son geniales.

Sin embargo, dado que la fórmula para la covarianza involucra la media, y la pregunta original del OP afirmaba que el 'receptor' entiende el concepto de la media, pensé que tendría problemas para adaptar las gráficas de rectángulo de @ whuber para comparar cada punto de datos con el significa x e y, ya que esto representa más lo que está sucediendo en la fórmula de covarianza. Pensé que en realidad terminó pareciendo bastante intuitivo: "Gráficos de covarianza para variables con diferentes correlaciones"

El punto azul en el medio de cada gráfico es la media de x (x_mean) y la media de y (y_mean).

Los rectángulos están comparando el valor de x - x_mean e y - y_mean para cada punto de datos.

El rectángulo es verde cuando:

  • tanto x como y son mayores que sus respectivos medios
  • tanto x como y son menores que sus respectivos medios

El rectángulo es rojo cuando:

  • x es mayor que x_mean pero y es menor que y_mean
  • x es menor que x_mean pero y es mayor que y_mean

La covarianza (y la correlación) pueden ser muy negativas y muy positivas. Cuando el gráfico está dominado por un color más que el otro, significa que los datos siguen principalmente un patrón consistente.

  • Si el gráfico tiene mucho más verde que rojo, significa que y generalmente aumenta cuando x aumenta.
  • Si el gráfico tiene mucho más rojo que verde, significa que y generalmente disminuye cuando x aumenta.
  • Si el gráfico no está dominado por un color u otro, significa que no hay mucho patrón en cómo xey se relacionan entre sí.

El valor real de la covarianza para dos variables diferentes x e y, es básicamente la suma de toda el área verde menos toda el área roja, luego se divide por el número total de puntos de datos, efectivamente el promedio de verdor-enrojecimiento del gráfico .

¿Cómo suena eso / se ve?

capohugo
fuente
3

La varianza es el grado por el cual una variable aleatoria cambia con respecto a su valor esperado Debido a la naturaleza estocástica del proceso subyacente que representa la variable aleatoria.

La covarianza es el grado en que dos variables aleatorias diferentes cambian una con respecto a la otra. Esto podría suceder cuando las variables aleatorias son conducidas por el mismo proceso subyacente, o derivados del mismo. O los procesos representados por estas variables aleatorias se afectan entre sí, o es el mismo proceso, pero una de las variables aleatorias se deriva de la otra.

Kingz
fuente
2

Simplemente explicaría la correlación que es bastante intuitiva. Yo diría "La correlación mide la fuerza de la relación entre dos variables X e Y. La correlación está entre -1 y 1 y estará cerca de 1 en valor absoluto cuando la relación sea fuerte. La covarianza es solo la correlación multiplicada por las desviaciones estándar de las dos variables. Entonces, mientras que la correlación es adimensional, la covarianza está en el producto de las unidades para la variable X y la variable Y.

Michael Chernick
fuente
10
Esto parece inadecuado porque no se menciona la linealidad. X e Y podrían tener una fuerte relación cuadrática pero tener una correlación de cero.
mark999
0

Dos variables que tendrían una alta covarianza positiva (correlación) serían la cantidad de personas en una habitación y la cantidad de dedos que están en la habitación. (A medida que aumenta el número de personas, esperamos que el número de dedos también aumente).

Algo que podría tener una covarianza negativa (correlación) sería la edad de una persona y la cantidad de folículos capilares en su cabeza. O la cantidad de granos en la cara de una persona (en un determinado grupo de edad) y cuántas fechas tiene en una semana. Esperamos que las personas con más años tengan menos cabello, y que las personas con más acné tengan menos citas. Estas tienen una correlación negativa.

Adán
fuente
2
La covarianza no es necesariamente intercambiable con la correlación: la primera depende mucho de la unidad. La correlación es un número entre -1 y 1, un escalar sin unidad que representa la 'fuerza' de la covarianza IMO y eso no está claro en su respuesta
PhD
Votado como la respuesta implica que la covarianza y la correlación se pueden usar indistintamente.
sapo_cosmico