Ejemplos de datos independientes y no correlacionados en la vida real, y formas de medirlos / detectarlos

20

Siempre escuchamos acerca de este vector de datos VS este otro vector de datos que es independiente el uno del otro, o no correlacionado, etc., y si bien es fácil encontrar las matemáticas con respecto a esos dos conceptos, quiero vincularlos en ejemplos de vida, y también encontrar formas de medir esta relación.

Desde este punto de vista, estoy buscando ejemplos de dos señales que sean de las siguientes combinaciones: (Comenzaré con algunas):

  • Dos señales que son independientes Y (necesariamente) no correlacionadas:

    • El ruido del motor de un automóvil ( ) y su voz ( ) mientras habla.v1[norte]v2[norte]
    • Una grabación de humedad todos los días ( ) y el índice dow-jones ( ).v1[norte]v2[norte]

Q1) ¿Cómo medirías / probarías que son independientes con esos dos vectores en la mano? Sabemos que la independencia significa que el producto de sus archivos PDF es igual a su PDF conjunto, y eso es genial, pero con esos dos vectores en la mano, ¿cómo se prueba su independencia?

  • Dos señales que NO son independientes, pero que aún no están correlacionadas:

P2) No puedo pensar en ningún ejemplo aquí ... ¿cuáles serían algunos ejemplos? Sé que podemos medir la correlación tomando la correlación cruzada de dos de esos vectores, pero ¿cómo demostraríamos que tampoco son independientes?

  • Dos señales que están correlacionadas:
    • Un vector que mide la voz de un cantante de ópera en la sala principal, , mientras alguien graba su voz desde algún lugar dentro del edificio, digamos en la sala de ensayo ( ).v1[norte]v2[norte]
    • Si continuamente midió su ritmo cardíaco en su automóvil, ( ), y también midió la intensidad de las luces azules que inciden en su parabrisas trasero ( ) ... Supongo que eso estaría muy correlacionado. . :-)v1[norte]v2[norte]

Q3) Relacionado con q2, pero en el caso de medir la correlación cruzada desde este punto de vista empírico, ¿es suficiente mirar el producto punto de esos vectores (ya que ese es el valor en el pico de su correlación cruzada)? ¿Por qué nos importarían otros valores en la función cross-corr?

Gracias de nuevo, ¡cuantos más ejemplos se den, mejor para construir la intuición!

Spacey
fuente
@DilipSarwate Gracias Dilip, lo echaré un vistazo. Por ahora, algunos ejemplos serían buenos.
Spacey
No se puede "probar" que son independientes de la misma manera que incluso una encuesta bien construida no puede "probar" cómo van a votar todos, y por las mismas razones.
Jim Clay
@JimClay Siéntase libre de relajar el criterio 'probar': lo que estoy tratando de obtener son formas de medir / cuantificar la independencia. A menudo escuchamos acerca de ser independientes, bueno, ¿cómo saben eso? ¿Qué cinta métrica se está utilizando?
Spacey
Me gustaría saber si la corelación cruzada se puede utilizar para dos señales analógicas, una de alta resolución y otra de baja resolución para fines de análisis.
Si tenemos alguna variable aleatoria X y construimos 2 señales a ** = (x) y ** b ** = f 2 (x) siendo f 1 y f 2 ortogonales y ** x = a + bf1f2f1f2 . ¿Esto implicaría que tales señales son independientes? ¿Requiere esto algunas condiciones adicionales? Esta propiedad sería interesante, ya que evita la construcción pdf conjunta de una y b .
Mladen

Respuestas:

9

Algunos elementos ... (Sé que esto no es exhaustivo, una respuesta más completa probablemente debería mencionar momentos)

Q1

Para verificar si dos distribuciones son independientes, debe medir cuán similar es su distribución conjunta al producto de su distribución marginal p ( x ) × p ( y ) . Para este propósito, puede usar cualquier distancia entre distribuciones. Si utiliza la divergencia Kullback-Leibler para comparar esas distribuciones, considerará la cantidad:p(x,y)p(x)×p(y)

xyp(x,y)logp(x,y)p(x)p(y)dxdy

Y habrás reconocido ... la información mutua! Cuanto más bajo es, más independientes son las variables.

Más prácticamente, para calcular esta cantidad a partir de sus observaciones, puede estimar las densidades , p ( y ) , p ( x , y ) a partir de sus datos utilizando un estimador de densidad Kernel y realizar una integración numérica en una cuadrícula fina ; o simplemente cuantifique sus datos en N contenedores y use la expresión de la información mutua para distribuciones discretas.p(x)p(y)p(x,y)N

Q2

De la página de Wikipedia sobre independencia estadística y correlación:

Parcelas de distribución

A excepción del último ejemplo, estas distribuciones 2D tienen correlaciones marginales no correlacionadas (matriz de covarianza diagonal), pero no independientes, p ( x ) y p ( y ) .p(x,y)p(x)p(y)

Q3

De hecho, hay situaciones en las que puede observar todos los valores de las funciones de correlación cruzada. Surgen, por ejemplo, en el procesamiento de señales de audio. Considere dos micrófonos que capturan la misma fuente, pero distantes de unos pocos metros. La correlación cruzada de las dos señales tendrá un pico fuerte en el retraso correspondiente a la distancia entre micrófonos dividida por la velocidad del sonido. Si solo observa la correlación cruzada en el retraso 0, ¡no verá que una señal es una versión de la otra con un cambio de tiempo!

pichenettes
fuente
Gracias pichenettes: 1) ¿Puede dar más detalles sobre su primer punto? Realmente me está costando entender cómo, a partir de dos vectores de datos, x [n] e y [n], posiblemente pueda encontrar su PDF CONJUNTO , . Puedo entender cómo tomar un histograma de x [n] me dará pdf de X, ( p (x} ), y lo mismo con Y, pero ¿cómo diablos se llega a una articulación con dos vectores dados? preguntando concretamente: mapeo concreto exacto de un PDF de muestras observadas. Esto es lo que más me confunde. (cont.)p(x,y)p(x}
Spacey
(cont.) 2) Entonces, para resumir: si la matriz de covarianza de x e y es diagonal, entonces no están correlacionadas, pero NO son necesariamente independientes. Probar la independencia fue el problema con la pregunta de seguimiento (1). Sin embargo, si mostramos que son indep, entonces, por supuesto, su matriz de covarianza TIENE que ser diagonal. ¿He entendido bien? ¿Cuál es un ejemplo de 2 señales físicas que puedo medir en la vida real que serían dependientes, pero no correlacionadas? Gracias de nuevo.
Spacey
1
Digamos que tienes dos señales e y n representadas como vectores de N elementos. Puede obtener una estimación de p ( x , y ) utilizando, por ejemplo, un estimador de densidad de Kernel: p ( x , y ) = i 1xnynNp(x,y)dondeKes una función Kernel. O puede usar la misma técnica que para construir un histograma, pero en 2D. Construya una cuadrícula rectangular, cuente cuántos pares(xn,yn)caen en cada celda de la cuadrícula y usep(x,y)=Cp(x,y)=i1NK(xxi,yyi)K(xn,yn) donde N es el tamaño de sus señales yCes el número de elementos en la celda asociada con el punto(x,y). p(x,y)=CNC(x,y)
pichenettes
1
"2 señales físicas que serían dependientes, pero no correlacionadas": Digamos que pirateamos el GPS de una cabina de Nueva York para registrar un historial (latitud, longitud) de su posición. Hay muchas posibilidades de que el lat. Sea largo. los datos no estarán correlacionados: no hay una "orientación" privilegiada de la nube de puntos. Pero difícilmente será independiente, ya que, si se le pidiera adivinar la latitud de la cabina, proporcionaría una suposición mucho mejor si supiera la longitud (podría mirar un mapa y descartar el [lat, largas] parejas ocupadas por edificios).
pichenettes
Otro ejemplo: dos senos se agitan en un múltiplo entero de la misma frecuencia. Correlación nula (la base de Fourier es ortonormal); pero si conoce el valor de uno, solo hay un conjunto finito de valores que el otro puede tomar (piense en un diagrama de Lissajous).
pichenettes
5

Inferir si dos señales son independientes es muy difícil de hacer (dadas observaciones finitas) sin ningún conocimiento previo / suposiciones.

Dos variables aleatorias e Y son independientes si el valor de X no proporciona información sobre el valor de Y (es decir, no afecta nuestra distribución de probabilidad previa para Y ). Esto es equivalente a que cualquier transformación no lineal de X e Y no esté correlacionada, es decir, cov ( f 1 ( X ) , f 2 ( Y ) ) = E ( f 1 ( X ) , f 2 ( Y )XYXYYXY para cualquier f 1 y f 2 no lineal,suponiendo que wlog ambas variables tengan media cero. La diferencia entre independencia y falta de correlación es que X e Y no están correlacionadas si lo anterior es válido, solo para f 1 ( x ) = f 2 ( x ) = x , la función de identidad.

cov(f1(X),f2(Y))=E(f1(X),f2(Y))=0
f1f2XYf1(x)=f2(x)=x

Si asumimos la Gaussianidad conjunta, todos los momentos conjuntos mayores que el orden 2 son iguales a cero y, en este caso, sin correlación implica independiente. Si no tenemos suposiciones previas, la estimación de los momentos conjuntos nos dará información sobre 'cuán dependientes' son unos de otros.E(XiYj)

Podemos generalizar esto a las señales e Y ( t ) considerando los espectros cruzados S X , Y ( f ) , S X 2 , Y ( f ) , S X , Y 2 ( f ) ... en todas las frecuencias f .X(t)Y(t)

SX,Y(f),SX2,Y(f),SX,Y2(f)
f

Ejemplo :

Después de leer el comentario de 'pichenettes', me inspiró a usar su idea como ejemplo. Considere las señales Y ( t ) = sin ( 2 π f t k ) para k Z y k 1 . Claramente, no hay transformación lineal que envíe X ( t ) a Y ( t )

X(t)=sin(2πft)
Y(t)=sin(2πftk)
kZk1X(t)Y(t)a medida que oscilan a diferentes frecuencias. Sin embargo, es bien sabido que podemos escribir como una función en sin ( x ) y, por lo tanto, Y ( t ) = f ( X ( t ) ) para algún polinomio f .sin(kx)sin(x)
Y(t)=f(X(t))
f

Por lo tanto, a pesar de ser señales no correlacionadas, e Y ( t ) no son independientes.X(t)Y(t)

rwolst
fuente
Xx2,Y(f)
X2(t)Y(t)