Medición de dependencia no lineal

11

La covarianza entre dos variables aleatorias define una medida de cuán estrechamente están relacionadas linealmente entre sí. Pero, ¿qué pasa si la distribución conjunta es circular? Seguramente hay estructura en la distribución. ¿Cómo se extrae esta estructura?

infinito
fuente

Respuestas:

8

Por "circular" entiendo que la distribución se concentra en una región circular, como en este diagrama de contorno de un pdf.

Gráfico de contorno de una distribución circular.

Si tal estructura existe, incluso parcialmente, una forma natural de identificarla y medirla es promediar la distribución circularmente alrededor de su centro . (Intuitivamente, esto significa que para cada radio posible deberíamos extender la probabilidad de estar a una distancia del centro igualmente en todas las direcciones). Denotando las variables como , el centro debe estar ubicado en el punto de primeros momentos . Para hacer el promedio es conveniente definir la función de distribución radialr ( X , Y ) ( μ X , μ Y )rr(X,Y)(μX,μY)

F(ρ)=Pr[(XμX)2+(YμY)2ρ2],ρ0;
F(ρ)=0,ρ<0.

Esto captura la probabilidad total de estar entre la distancia y del centro. A lo extendió en todas las direcciones, dejó sea una variable aleatoria con función de distribución y ser una variable aleatoria uniforme en independiente de . La variable aleatoria bivariada es el promedio circular de . (Esto hace el trabajo que nuestra intuición exige de un "promedio circular" porque (a) tiene la distribución radial correcta, es decir , , por construcción, y (b) todas las direcciones desde el centro (0ρRFΘ[0,2π]R(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)(X,Y)FΘ) son igualmente probables)

En este punto, tiene muchas opciones: todo lo que queda es comparar la distribución de con la de . Las posibilidades incluyen una distancia y la divergencia Kullback-Leibler (junto con una miríada de medidas de distancia relacionadas: divergencia simétrica, distancia de Hellinger, información mutua, etc. ). La comparación sugiere que puede tener una estructura circular cuando está "cerca" de . En este caso la estructura puede ser "extrae" de propiedades de . Por ejemplo, una medida de ubicación central de , como su media o mediana, identifica el "radio" de la distribución de(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H)FF(X,Y) , y la desviación estándar (u otra medida de escala) de expresa cuán "dispersos" están en las direcciones radiales sobre su ubicación central .F(X,Y)(μX,μY)

Al tomar muestras de una distribución, con datos , una prueba razonable de circularidad es estimar la ubicación central como de costumbre (con medias o medianas) y luego convertir cada valor en coordenadas polares relativas a ese centro estimado. Compare la desviación estándar (o IQR) de los radios con su media (o mediana). Para distribuciones no circulares, la relación será grande; para distribuciones circulares debe ser relativamente pequeño. (Si tiene en mente un modelo específico para la distribución subyacente, puede calcular la distribución de muestreo del estadístico radial y construir una prueba de significación con él). Por separado, pruebe la coordenada angular para determinar la uniformidad en el intervalo(xi,yi),1in(xi,yi)(ri,θi)[0,2π) . Será aproximadamente uniforme para distribuciones circulares (y también para algunas otras distribuciones); la falta de uniformidad indica una desviación de la circularidad.

whuber
fuente
1
¡Gracias! Aunque no está del todo claro, esto me da una idea. ¿Podría recomendarnos alguna lectura donde se aborden este tipo de distribuciones? Solo he estado expuesto a gaussianos y las otras distribuciones estándar. Otra pregunta, ¿tiene esto algo que ver con las funciones de distribución radial de los átomos, etc.?
Infinity
1
@Infinity Avíseme qué parte no está clara para que pueda intentar solucionarlo. No sé dónde se discuten tales distribuciones, pero se puede encontrar un análisis relacionado en la literatura sobre "distribuciones circulares". Las ideas matemáticas subyacentes están de hecho algo tenuemente relacionadas con la teoría atómica orbital. Los conceptos relevantes incluyen la capacidad de separación de la ecuación de Schrodinger en coordenadas esféricas, la construcción de la medida de Haar de un grupo de Lie compacto mediante el promedio y la comparación de orbitales mediante integrales de superposición.
whuber
Gracias. Soy muy nuevo en probabilidad y estadísticas, así que probablemente fue por eso. Realmente no entiendo lo que quieres decir con "promediar la distribución circularmente alrededor de su centro", creo que significa promediar todos los círculos para que solo quede un círculo con centro en y radio como un ajuste de línea de regresión lineal. ¿Es eso correcto? (μX,μY)ρ
Infinity
La otra duda que tengo es que la función de distribución parece describir un disco, pero la figura (y lo que tenía en mente) es un anillo. La variable aleatoria describe el círculo promedio en forma polar. Lo siento, no entiendo claramente lo que sucede después. Entiendo que comparamos las dos distribuciones usando alguna métrica de distancia, pero ¿por qué es especial y cómo ayuda? No puedo razonar. Lo siento si las preguntas parecen demasiado estúpidas. F(ρ)(Ξ,H)(Ξ,H)
Infinity
1
@Infinity agregué algunas observaciones aclaratorias. No promedias los círculos; más bien, promedia (o "difumina") toda la probabilidad en cada círculo para que, sin importar con qué comience, termine pareciéndose a mi imagen (con contornos circulares). Si la distribución original era realmente circular, este promedio no la cambia. Por lo tanto, comparar la distribución con su versión promediada le indica qué tan lejos está de ser circular en primer lugar.
whuber
5

La información mutua tiene propiedades algo análogas a la covarianza. La covarianza es un número que es 0 para variables independientes y distinto de cero para variables que son linealmente dependientes. En particular, si dos variables son iguales, entonces la covarianza es igual a la varianza (que generalmente es un número positivo). Un problema con la covarianza es que puede ser cero incluso si dos variables no son independientes, siempre que la dependencia no sea lineal.

La información mutua (MI) es un número no negativo. Es cero si y solo si las dos variables son estadísticamente independientes. Esta propiedad es más general que la de covarianza y cubre cualquier dependencia, incluidas las no lineales.

Si las dos variables son iguales, MI es igual a la entropía de la variable (nuevamente, generalmente un número positivo). Si las variables son diferentes y no están relacionadas determinísticamente, entonces MI es menor que la entropía. En este sentido, el MI de dos variables va entre 0 y H (la entropía), con 0 solo si es independiente y H solo si es determinísticamente dependiente.

Una diferencia de la covarianza es que se ignora el "signo" de dependencia. Por ejemplo, , pero .Cov(X,X)=Cov(X,X)=Var(X)MI(X,X)=MI(X,X)=H(X)

Sheldon Cooper
fuente
44
¿Podría ampliar cómo este concepto proporciona una respuesta a la pregunta?
parada el
3

Eche un vistazo al siguiente artículo de Science: aborda su punto exactamente:

Detección de nuevas asociaciones en grandes conjuntos de datos por David N. Reshef et al.

Del resumen:

Identificar relaciones interesantes entre pares de variables en grandes conjuntos de datos es cada vez más importante. Aquí, presentamos una medida de dependencia para las relaciones de dos variables: el coeficiente de información máximo (MIC). MIC captura una amplia gama de asociaciones tanto funcionales como no, y para las relaciones funcionales proporciona una puntuación que es aproximadamente igual al coeficiente de determinación (R ^ 2) de los datos en relación con la función de regresión. MIC pertenece a una clase más grande de estadísticas de exploración no paramétrica (MINE) basadas en información máxima para identificar y clasificar relaciones. Aplicamos MIC y MINE a conjuntos de datos en salud global, expresión génica, béisbol de grandes ligas y la microbiota intestinal humana e identificamos relaciones conocidas y novedosas.

Puede encontrar material complementario aquí: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1

Los autores incluso proporcionan una herramienta gratuita que incorpora el método novedoso que se puede usar con R y Python: http://www.exploredata.net/

vonjd
fuente