¿Cómo pruebo que dos variables continuas son independientes?

48

Supongamos que tengo una muestra de la distribución conjunta de X y Y . ¿Cómo pruebo la hipótesis de que X e Y son independientes?(Xn,Yn),n=1..NXYXY ?

No se hace suposición sobre las leyes de distribución conjunta o marginal de e Y (por lo menos de toda la normalidad conjunta, ya que en ese caso la independencia es idéntica a la correlación siendo 0XY0 ).

No se asume la naturaleza de una posible relación entre e Y ; puede ser no lineal, por lo que las variables no están correlacionadas ( r = 0 ) pero son altamente co-dependientes ( I = H ).XYr=0I=H

Puedo ver dos enfoques:

  1. Bin tanto las variables y el uso la prueba exacta de Fisher o G-test .

    • Pro: use pruebas estadísticas bien establecidas
    • Con: depende de binning
  2. Estime la dependencia de e Y : I ( X ; Y )XYyo(X;Y)H(X,Y) (esto esparaXeYindependientesy1cuando se determinan por completo).0 0XY1

    • Pro: produce un número con un claro significado teórico
    • Con: depende del cálculo aproximado de entropía (es decir, binning nuevamente)

¿Tienen sentido estos enfoques?

¿Qué otros métodos usan las personas?

sds
fuente
3
Mira en la correlación de distancia .
Ray Koopman
@ RayKoopman: gracias, ¡estoy leyendo Medición y prueba de dependencia por correlación de distancias ahora!
sds el
2
la dependencia no tiene sentido cuando se habla de variables continuas. Las variables continuas tienen entropía infinita. Aquí, no puede sustituir H por la entropía diferencial, porque la entropía diferencial no es comparable a la información mutua. Si bien la información mutua tiene un "absoluto", es decir, la entropía diferencial podría ser positivo, cero o incluso negativo, dependiendo de las unidades que se utilizan para medir las variables X e Y . yo(X;Y)/ /H(X;Y)HXY
fonini
@fonini: por supuesto, estaba hablando de variables agrupadas. Gracias por tu comentario sin embargo.
sds el

Respuestas:

27

Este es un problema muy difícil en general, aunque sus variables aparentemente solo son 1d, por lo que eso ayuda. Por supuesto, el primer paso (cuando sea posible) debe ser trazar los datos y ver si se te ocurre algo; estás en 2d, así que esto debería ser fácil.

Aquí hay algunos enfoques que funcionan en o incluso en configuraciones más generales:Rn

Dougal
fuente
¿Puede mencionar brevemente cómo se comparan estos enfoques con la Correlación de distancia ? Estoy usando DC para filtrar grandes conjuntos de datos (bueno, grandes para mí), así que estoy interesado en cualquier comentario que pueda tener. ¡Gracias!
pteetor
1
@pteetor Eso es interesante, no había cruzado la correlación de distancia antes. Computacionalmente, parece más costoso que el enfoque de estimación de entropía para tamaños de muestra grandes porque necesita las matrices de distancia completa (donde para los estimadores de entropía puede usar índices para obtener solo los primeros kvecinos). No tengo idea de cómo se compara en términos de poder estadístico / etc.
Dougal
44
Para lectores posteriores: El artículo de 2013 Equivalencia de estadísticas basadas en distancia y RKHS en pruebas de hipótesis de Sejdinovic et al. muestra que la correlación de distancia y otras distancias de energía son instancias particulares de MMD, la medida subyacente detrás de HSIC, y analiza la relación en términos de potencia de prueba, etc.
Dougal
19

Hoeffding desarrolló una prueba general no paramétrica para la independencia de dos variables continuas utilizando rangos conjuntos para probar . Esta prueba de 1948 se implementa en la función del paquete R.H0 0:H(X,y)=F(X)sol(y)Hmischoeffd

Frank Harrell
fuente
6

¿Qué tal este artículo?

http://arxiv.org/pdf/0803.4101.pdf

"Medición y prueba de dependencia por correlación de distancias". Székely y Bakirov siempre tienen cosas interesantes.

Hay código matlab para la implementación:

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

Si encuentra alguna otra prueba de independencia (fácil de implementar), infórmenos.

JLp
fuente
2
Bienvenido al sitio, @JLp. Esperamos construir un repositorio permanente de información estadística de alta calidad en forma de preguntas y respuestas. Como tal, una cosa que nos preocupa es linkrot. Con eso en mente, ¿le importaría dar un resumen de lo que está en ese documento / cómo responde las preguntas, en caso de que el enlace se cortara? También ayudará a los futuros lectores de este hilo a decidir si quieren invertir el tiempo para leer el periódico.
gung - Restablece a Monica
@gung: esto es lo mismo que energía
sds
5

El vínculo entre la Covarianza de distancia y las pruebas de kernel (basado en el criterio de independencia de Hilbert-Schmidt) se proporciona en el documento:

Sejdinovic, D., Sriperumbudur, B., Gretton, A. y Fukumizu, K., Equivalencia de estadísticas basadas en distancia y RKHS en pruebas de hipótesis, Annals of Statistics, 41 (5), pp.2263-2702, 2013

Se muestra que la covarianza de distancia es un caso especial de la estadística del núcleo, para una familia particular de núcleos.

Si tiene la intención de utilizar información mutua, una prueba basada en una estimación agrupada del IM es:

Gretton, A. y Gyorfi, L., Pruebas consistentes no paramétricas de independencia, Journal of Machine Learning Research, 11, pp.1391--1423, 2010.

Si está interesado en obtener el mejor poder de prueba, es mejor que use las pruebas del kernel, en lugar de binning e información mutua.

Dicho esto, dado que sus variables son univariadas, las pruebas de independencia no paramétricas clásicas como las de Hoeffding probablemente estén bien.

Arthur Gretton
fuente
4

Raramente (¿nunca?) En estadísticas puede demostrar que su estadística de muestra = un valor de punto. Puede probar contra valores de puntos y excluirlos o no excluirlos. Pero la naturaleza de las estadísticas es que se trata de examinar datos variables. Debido a que siempre hay variación, entonces no habrá necesariamente forma de saber que algo no está exactamente relacionado, normal, gaussiano, etc. Solo puede conocer un rango de valores para ello. Puede saber si un valor está excluido del rango de valores plausibles. Por ejemplo, es fácil excluir ninguna relación y dar un rango de valores para cuán grande es la relación.

Por lo tanto, tratando de demostrar que no hay relación, esencialmente el valor del punto de relationship = 0no se va a encontrar con éxito. Si tiene un rango de medidas de relación que son aceptables como aproximadamente 0. Entonces sería posible diseñar una prueba.

Suponiendo que puede aceptar esa limitación, sería útil para las personas que intentan ayudarlo a proporcionar un diagrama de dispersión con una curva baja. Como está buscando soluciones R, intente:

scatter.smooth(x, y)

Según la información limitada que ha proporcionado hasta ahora, creo que un modelo aditivo generalizado podría ser lo mejor para probar la no independencia. Si traza eso con CI alrededor de los valores pronosticados, puede hacer declaraciones sobre una creencia de independencia. Echa un vistazo gamen el paquete mgcv. La ayuda es bastante buena y hay asistencia aquí con respecto al IC .

John
fuente
2

Puede ser interesante ...

García, JE; Gonzalez-Lopez, VA (2014) Pruebas de independencia para variables aleatorias continuas basadas en la subsecuencia creciente más larga. Journal of Multivariate Analysis, v. 127 p. 126-146.

http://www.sciencedirect.com/science/article/pii/S0047259X14000335

usuario78122
fuente
2
Esta publicación se beneficiaría de más detalles sobre lo que está en el artículo, especialmente porque está detrás de un muro de pago.
Erik
-1

Si usa R, la cor.testfunción en el paquete de estadísticas (predeterminado en R) puede hacer eso:

Prueba de asociación / correlación entre muestras emparejadas. Pruebe la asociación entre muestras emparejadas, utilizando uno de los coeficientes de correlación de momento del producto de Pearson, Kendall's tau o Spearman rho.

cor.test(x, y,method="spearman")
Shicheng Guo
fuente
1
Esto pierde las relaciones no lineales que son explícitamente el tema de la pregunta.
sds