... suponiendo que pueda aumentar su conocimiento sobre la varianza de una manera intuitiva ( Entendiendo la "varianza" intuitivamente ) o diciendo: Es la distancia promedio de los valores de datos de la "media", y dado que la varianza está en cuadrado unidades, tomamos la raíz cuadrada para mantener las unidades iguales y eso se llama desviación estándar.
Supongamos que todo esto está articulado y (con suerte) entendido por el "receptor". Ahora, ¿qué es la covarianza y cómo se explicaría en inglés simple sin el uso de términos / fórmulas matemáticas? (Es decir, explicación intuitiva.)
Tenga en cuenta: conozco las fórmulas y las matemáticas detrás del concepto. Quiero poder "explicar" lo mismo de una manera fácil de entender, sin incluir las matemáticas; es decir, ¿qué significa "covarianza"?
fuente
Respuestas:
A veces podemos "aumentar el conocimiento" con un enfoque inusual o diferente. Me gustaría que esta respuesta sea accesible para los niños de kindergarten y que también se divierta, para que todos saquen sus crayones
Dados los datos emparejados , dibuje su diagrama de dispersión. (Los estudiantes más jóvenes pueden necesitar un maestro para producir esto para ellos. :-) Cada par de puntos , en esa gráfica determina un rectángulo: es el rectángulo más pequeño, cuyos lados son paralelos al ejes, que contienen esos puntos. Por lo tanto, los puntos están en las esquinas superior derecha e inferior izquierda (una relación "positiva") o están en las esquinas superior izquierda e inferior derecha (una relación "negativa").( x , y) ( xyo, yyo) ( xj, yj)
Dibuja todos los rectángulos posibles. Colóquelos de manera transparente, haciendo que los rectángulos positivos sean rojos (digamos) y los rectángulos negativos "anti-rojos" (azul). De esta manera, donde los rectángulos se superponen, sus colores se mejoran cuando son iguales (azul y azul o rojo y rojo) o se cancelan cuando son diferentes.
( En esta ilustración de un rectángulo positivo (rojo) y negativo (azul), la superposición debe ser blanca; desafortunadamente, este software no tiene un verdadero color "anti-rojo". La superposición es gris, por lo que oscurecerá el trama, pero en general la cantidad neta de rojo es correcta ) .
Ahora estamos listos para la explicación de la covarianza.
La covarianza es la cantidad neta de rojo en el gráfico (tratando el azul como valores negativos).
Aquí hay algunos ejemplos con 32 puntos binormales extraídos de distribuciones con las covarianzas dadas, ordenadas de más negativas (más azules) a las más positivas (más rojas).
Se dibujan en ejes comunes para hacerlos comparables. Los rectángulos están ligeramente delineados para ayudarte a verlos. Esta es una versión actualizada (2019) del original: utiliza un software que cancela adecuadamente los colores rojo y cian en rectángulos superpuestos.
Vamos a deducir algunas propiedades de covarianza. La comprensión de estas propiedades será accesible para cualquiera que haya dibujado algunos de los rectángulos. :-)
Bilinealidad. Debido a que la cantidad de rojo depende del tamaño de la gráfica, la covarianza es directamente proporcional a la escala en el eje xy a la escala en el eje y.
Correlación. La covarianza aumenta a medida que los puntos se aproximan a una línea inclinada hacia arriba y disminuye a medida que los puntos se aproximan a una línea inclinada hacia abajo. Esto se debe a que en el primer caso la mayoría de los rectángulos son positivos y en el último caso, la mayoría son negativos.
Relación con asociaciones lineales. Debido a que las asociaciones no lineales pueden crear mezclas de rectángulos positivos y negativos, conducen a covarianzas impredecibles (y no muy útiles). Las asociaciones lineales se pueden interpretar completamente mediante las dos caracterizaciones anteriores.
Sensibilidad a los valores atípicos. Un valor atípico geométrico (un punto alejado de la masa) creará muchos rectángulos grandes en asociación con todos los demás puntos. Solo puede crear una cantidad neta de rojo positivo o negativo en la imagen general.
Por cierto, esta definición de covarianza difiere de la habitual solo por una constante universal de proporcionalidad (independiente del tamaño del conjunto de datos). Los matemáticamente inclinados no tendrán problemas para realizar la demostración algebraica de que la fórmula dada aquí es siempre el doble de la covarianza habitual.
fuente
Es útil recordar la fórmula básica (simple de explicar, no es necesario hablar sobre las expectativas matemáticas para un curso introductorio):
fuente
La covarianza es una medida de cuánto sube una variable cuando sube la otra.
fuente
Yo estoy respondiendo a mi propia pregunta, pero pensé que sería genial para la gente que viene a través de este post para ver algunas de las explicaciones de esta página .
Estoy parafraseando una de las respuestas muy bien articuladas (por un usuario 'Zhop'). Lo estoy haciendo en caso de que ese sitio se cierre o la página se elimine cuando alguien eones de ahora en adelante acceda a esta publicación;)
Agregar otro (por 'CatofGrey') que ayuda a aumentar la intuición:
¡Estos dos juntos me han hecho entender la covarianza como nunca antes la había entendido! ¡¡Simplemente asombroso!!
fuente
Realmente me gusta la respuesta de Whuber, así que reuní algunos recursos más. La covarianza describe tanto hasta qué punto se extienden las variables y la naturaleza de su relación.
La covarianza usa rectángulos para describir qué tan lejos está una observación de la media en un gráfico de dispersión:
Si un rectángulo tiene lados largos y un ancho alto o lados cortos y un ancho corto, proporciona evidencia de que las dos variables se mueven juntas.
Si un rectángulo tiene dos lados que son relativamente largos para esas variables, y dos lados que son relativamente cortos para la otra variable, esta observación proporciona evidencia de que las variables no se mueven juntas muy bien.
Si el rectángulo está en el segundo o cuarto cuadrante, cuando una variable es mayor que la media, la otra es menor que la media. Un aumento en una variable está asociado con una disminución en la otra.
Encontré una visualización genial de esto en http://sciguides.com/guides/covariance/ , explica qué es la covarianza si solo conoces la media.
fuente
Aquí hay otro intento de explicar la covarianza con una imagen. Cada panel en la imagen a continuación contiene 50 puntos simulados a partir de una distribución bivariada con correlación entre x & y de 0.8 y variaciones como se muestra en las etiquetas de fila y columna. La covarianza se muestra en la esquina inferior derecha de cada panel.
Cualquier persona interesada en mejorar esto ... aquí está el código R:
fuente
Me encantó la respuesta de @whuber, antes solo tenía una vaga idea en mi mente de cómo se podía visualizar la covarianza, pero esas gráficas rectangulares son geniales.
Sin embargo, dado que la fórmula para la covarianza involucra la media, y la pregunta original del OP afirmaba que el 'receptor' entiende el concepto de la media, pensé que tendría problemas para adaptar las gráficas de rectángulo de @ whuber para comparar cada punto de datos con el significa x e y, ya que esto representa más lo que está sucediendo en la fórmula de covarianza. Pensé que en realidad terminó pareciendo bastante intuitivo:
El punto azul en el medio de cada gráfico es la media de x (x_mean) y la media de y (y_mean).
Los rectángulos están comparando el valor de x - x_mean e y - y_mean para cada punto de datos.
El rectángulo es verde cuando:
El rectángulo es rojo cuando:
La covarianza (y la correlación) pueden ser muy negativas y muy positivas. Cuando el gráfico está dominado por un color más que el otro, significa que los datos siguen principalmente un patrón consistente.
El valor real de la covarianza para dos variables diferentes x e y, es básicamente la suma de toda el área verde menos toda el área roja, luego se divide por el número total de puntos de datos, efectivamente el promedio de verdor-enrojecimiento del gráfico .
¿Cómo suena eso / se ve?
fuente
La varianza es el grado por el cual una variable aleatoria cambia con respecto a su valor esperado Debido a la naturaleza estocástica del proceso subyacente que representa la variable aleatoria.
La covarianza es el grado en que dos variables aleatorias diferentes cambian una con respecto a la otra. Esto podría suceder cuando las variables aleatorias son conducidas por el mismo proceso subyacente, o derivados del mismo. O los procesos representados por estas variables aleatorias se afectan entre sí, o es el mismo proceso, pero una de las variables aleatorias se deriva de la otra.
fuente
Simplemente explicaría la correlación que es bastante intuitiva. Yo diría "La correlación mide la fuerza de la relación entre dos variables X e Y. La correlación está entre -1 y 1 y estará cerca de 1 en valor absoluto cuando la relación sea fuerte. La covarianza es solo la correlación multiplicada por las desviaciones estándar de las dos variables. Entonces, mientras que la correlación es adimensional, la covarianza está en el producto de las unidades para la variable X y la variable Y.
fuente
Dos variables que tendrían una alta covarianza positiva (correlación) serían la cantidad de personas en una habitación y la cantidad de dedos que están en la habitación. (A medida que aumenta el número de personas, esperamos que el número de dedos también aumente).
Algo que podría tener una covarianza negativa (correlación) sería la edad de una persona y la cantidad de folículos capilares en su cabeza. O la cantidad de granos en la cara de una persona (en un determinado grupo de edad) y cuántas fechas tiene en una semana. Esperamos que las personas con más años tengan menos cabello, y que las personas con más acné tengan menos citas. Estas tienen una correlación negativa.
fuente