Intenté comprender mejor la covarianza de dos variables aleatorias y entender cómo la primera persona que lo pensó llegó a la definición que se usa habitualmente en estadística. Fui a Wikipedia para entenderlo mejor. Según el artículo, parece que una buena medida o cantidad candidata para debería tener las siguientes propiedades:
- Debería tener un signo positivo cuando dos variables aleatorias son similares (es decir, cuando una aumenta, la otra aumenta y cuando una disminuye, la otra también).
- También queremos que tenga un signo negativo cuando dos variables aleatorias son opuestamente similares (es decir, cuando una aumenta, la otra variable aleatoria tiende a disminuir)
- Por último, queremos que esta cantidad de covarianza sea cero (¿o extremadamente pequeña probablemente?) Cuando las dos variables son independientes entre sí (es decir, no varían conjuntamente entre sí).
De las propiedades anteriores, queremos definir . Mi primera pregunta es, no es del todo obvio para mí por qué satisface esas propiedades. De las propiedades que tenemos, hubiera esperado que una ecuación similar a una "derivada" fuera el candidato ideal. Por ejemplo, algo más parecido a "si el cambio en X es positivo, entonces el cambio en Y también debería ser positivo". Además, ¿por qué tomar la diferencia del significado es lo "correcto"?
Una pregunta más tangencial, pero aún interesante, ¿existe una definición diferente que podría haber satisfecho esas propiedades y aún así hubiera sido significativa y útil? Lo pregunto porque parece que nadie se pregunta por qué estamos usando esta definición en primer lugar (parece que es "siempre ha sido así", lo que en mi opinión es una razón terrible y dificulta la investigación científica y curiosidad matemática y pensamiento). ¿Es la definición aceptada la "mejor" definición que podríamos tener?
Estos son mis pensamientos sobre por qué la definición aceptada tiene sentido (solo será un argumento intuitivo):
Sea alguna diferencia de la variable X (es decir, cambió de algún valor a otro valor en algún momento). Del mismo modo para definir Δ Y .
Para una instancia en el tiempo, podemos calcular si están relacionados o no haciendo:
¡Esto es algo bueno! Para una instancia en el tiempo, satisface las propiedades que queremos. Si ambos aumentan juntos, entonces la mayoría de las veces, la cantidad anterior debe ser positiva (y de manera similar cuando son opuestamente similares, será negativa, porque los 's tendrán signos opuestos).
Pero eso solo nos da la cantidad que queremos para una instancia en el tiempo, y dado que son rv, podríamos sobreajustar si decidimos basar la relación de dos variables en base a solo 1 observación. Entonces, ¿por qué no tomar la expectativa de esto para ver el producto "promedio" de las diferencias.
¡Cuál debería capturar en promedio cuál es la relación promedio como se definió anteriormente! Pero el único problema que tiene esta explicación es, ¿de qué medimos esta diferencia? Lo que parece abordarse midiendo esta diferencia de la media (que por alguna razón es lo correcto).
Supongo que el problema principal que tengo con la definición es tomar la diferencia de la media . Parece que todavía no puedo justificar eso.
La interpretación del signo puede dejarse para una pregunta diferente, ya que parece ser un tema más complicado.
fuente
Respuestas:
Imagina que comenzamos con una pila vacía de números. Luego comenzamos a dibujar pares partir de su distribución conjunta. Puede suceder una de cuatro cosas:( X, Y)
Luego, para obtener una medida general de la (dis-) similitud de X e Y, sumamos todos los valores de los números en la pila. Una suma positiva sugiere que las variables se mueven en la misma dirección al mismo tiempo. Una suma negativa sugiere que las variables se mueven en direcciones opuestas la mayoría de las veces. Una suma cero sugiere que conocer la dirección de una variable no le dice mucho sobre la dirección de la otra.
Es importante pensar en 'más grande que el promedio' en lugar de solo 'grande' (o 'positivo') porque cualquiera de las dos variables no negativas se consideraría similar (por ejemplo, el tamaño del próximo accidente automovilístico en el M42 y el número de boletos comprados en la estación de tren de Paddington mañana).
La fórmula de covarianza es una formalización de este proceso:
Usando la distribución de probabilidad en lugar de la simulación de Monte Carlo y especificando el tamaño del número que ponemos en la pila.
fuente
Aquí está mi manera intuitiva de mirarlo sin ecuaciones.
Es una generalización de la varianza a dimensiones superiores. La motivación probablemente vino de tratar de describir cómo se comportan los datos. Para el primer orden, tenemos su ubicación: la media. En el segundo orden, tenemos la dispersión: la covarianza.
La dispersión se evalúa en relación con el centro de la distribución. La definición más básica de la varianza es la "desviación media de la media". por lo tanto, debe restar la media también en el caso de la covarianza.
Otra motivación principal que viene a la mente es la necesidad de definir una forma de medir la distancia entre variables aleatorias. La distancia de Mahalanobis y la covarianza van de la mano: dada una distribución gaussiana y otras dos muestras que tienen una distancia euclidiana igual a la media de distribución. Si le preguntara cuál de las muestras es más probable que sea un valor atípico que no se extrajo de la distribución gaussiana, la distancia euclidiana no funcionará. La distancia de Mahalanobis tiene una diferencia notable única de la distancia euclidiana: tiene en cuenta la dispersión (covarianza) de la distribución. Esto le permite generalizar la distancia a variables aleatorias.
fuente
fuente
Me preguntaba sobre la misma pregunta, y la intuición dada por las conjeturas me ayudó. Para visualizar la intuición, tomé dos vectores normales al azar, x e y, tracé el diagrama de dispersión y coloreé cada punto por el producto de sus desviaciones de sus respectivas medias (azul para valores positivos, rojo para negativos).
Como queda claro en la gráfica, el producto es más positivo en los cuadrantes superior derecho e inferior izquierdo, mientras que es más negativo en los cuadrantes inferior derecho e superior izquierdo. El efecto de sumar los productos daría como resultado 0, ya que los puntos azules cancelan los rojos.
Pero puede ver que si eliminamos los puntos rojos, los datos restantes exhiben una relación positiva entre sí, lo que se valida mediante la suma positiva de productos (es decir, la suma de los puntos azules).
fuente
en el espacio vectorial de variables aleatorias es razonable definir el cuadrado de distancia entre dos variables aleatorias x e y con E {(xy) ^ 2} ahora con respecto a esta definición de producto de punto de distancia o la relación de variables aleatorias será E {xy}, que es muy similar a la definición de covarianza, excepto los términos -E {x} y -E {y} que son para el tipo de normalización.
fuente