Por "circular" entiendo que la distribución se concentra en una región circular, como en este diagrama de contorno de un pdf.
Si tal estructura existe, incluso parcialmente, una forma natural de identificarla y medirla es promediar la distribución circularmente alrededor de su centro . (Intuitivamente, esto significa que para cada radio posible deberíamos extender la probabilidad de estar a una distancia del centro igualmente en todas las direcciones). Denotando las variables como , el centro debe estar ubicado en el punto de primeros momentos . Para hacer el promedio es conveniente definir la función de distribución radialr ( X , Y ) ( μ X , μ Y )rr(X,Y)(μX,μY)
F(ρ)=Pr[(X−μX)2+(Y−μY)2≤ρ2],ρ≥0;
F(ρ)=0,ρ<0.
Esto captura la probabilidad total de estar entre la distancia y del centro. A lo extendió en todas las direcciones, dejó sea una variable aleatoria con función de distribución y ser una variable aleatoria uniforme en independiente de . La variable aleatoria bivariada es el promedio circular de . (Esto hace el trabajo que nuestra intuición exige de un "promedio circular" porque (a) tiene la distribución radial correcta, es decir , , por construcción, y (b) todas las direcciones desde el centro (0ρRFΘ[0,2π]R(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)(X,Y)FΘ) son igualmente probables)
En este punto, tiene muchas opciones: todo lo que queda es comparar la distribución de con la de . Las posibilidades incluyen una distancia y la divergencia Kullback-Leibler (junto con una miríada de medidas de distancia relacionadas: divergencia simétrica, distancia de Hellinger, información mutua, etc. ). La comparación sugiere que puede tener una estructura circular cuando está "cerca" de . En este caso la estructura puede ser "extrae" de propiedades de . Por ejemplo, una medida de ubicación central de , como su media o mediana, identifica el "radio" de la distribución de(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H)FF(X,Y) , y la desviación estándar (u otra medida de escala) de expresa cuán "dispersos" están en las direcciones radiales sobre su ubicación central .F(X,Y)(μX,μY)
Al tomar muestras de una distribución, con datos , una prueba razonable de circularidad es estimar la ubicación central como de costumbre (con medias o medianas) y luego convertir cada valor en coordenadas polares relativas a ese centro estimado. Compare la desviación estándar (o IQR) de los radios con su media (o mediana). Para distribuciones no circulares, la relación será grande; para distribuciones circulares debe ser relativamente pequeño. (Si tiene en mente un modelo específico para la distribución subyacente, puede calcular la distribución de muestreo del estadístico radial y construir una prueba de significación con él). Por separado, pruebe la coordenada angular para determinar la uniformidad en el intervalo(xi,yi),1≤i≤n(xi,yi)(ri,θi)[0,2π) . Será aproximadamente uniforme para distribuciones circulares (y también para algunas otras distribuciones); la falta de uniformidad indica una desviación de la circularidad.
La información mutua tiene propiedades algo análogas a la covarianza. La covarianza es un número que es 0 para variables independientes y distinto de cero para variables que son linealmente dependientes. En particular, si dos variables son iguales, entonces la covarianza es igual a la varianza (que generalmente es un número positivo). Un problema con la covarianza es que puede ser cero incluso si dos variables no son independientes, siempre que la dependencia no sea lineal.
La información mutua (MI) es un número no negativo. Es cero si y solo si las dos variables son estadísticamente independientes. Esta propiedad es más general que la de covarianza y cubre cualquier dependencia, incluidas las no lineales.
Si las dos variables son iguales, MI es igual a la entropía de la variable (nuevamente, generalmente un número positivo). Si las variables son diferentes y no están relacionadas determinísticamente, entonces MI es menor que la entropía. En este sentido, el MI de dos variables va entre 0 y H (la entropía), con 0 solo si es independiente y H solo si es determinísticamente dependiente.
Una diferencia de la covarianza es que se ignora el "signo" de dependencia. Por ejemplo, , pero .Cov(X,−X)=−Cov(X,X)=−Var(X) MI(X,−X)=MI(X,X)=H(X)
fuente
Eche un vistazo al siguiente artículo de Science: aborda su punto exactamente:
Detección de nuevas asociaciones en grandes conjuntos de datos por David N. Reshef et al.
Del resumen:
Puede encontrar material complementario aquí: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
Los autores incluso proporcionan una herramienta gratuita que incorpora el método novedoso que se puede usar con R y Python: http://www.exploredata.net/
fuente