Supongamos que tengo una muestra de la distribución conjunta de X y Y . ¿Cómo pruebo la hipótesis de que X e Y son independientes? ?
No se hace suposición sobre las leyes de distribución conjunta o marginal de e Y (por lo menos de toda la normalidad conjunta, ya que en ese caso la independencia es idéntica a la correlación siendo 0 ).
No se asume la naturaleza de una posible relación entre e Y ; puede ser no lineal, por lo que las variables no están correlacionadas ( r = 0 ) pero son altamente co-dependientes ( I = H ).
Puedo ver dos enfoques:
Bin tanto las variables y el uso la prueba exacta de Fisher o G-test .
- Pro: use pruebas estadísticas bien establecidas
- Con: depende de binning
Estime la dependencia de e Y : I ( X ; Y ) (esto esparaXeYindependientesy1cuando se determinan por completo).
- Pro: produce un número con un claro significado teórico
- Con: depende del cálculo aproximado de entropía (es decir, binning nuevamente)
¿Tienen sentido estos enfoques?
¿Qué otros métodos usan las personas?
Respuestas:
Este es un problema muy difícil en general, aunque sus variables aparentemente solo son 1d, por lo que eso ayuda. Por supuesto, el primer paso (cuando sea posible) debe ser trazar los datos y ver si se te ocurre algo; estás en 2d, así que esto debería ser fácil.
Aquí hay algunos enfoques que funcionan en o incluso en configuraciones más generales:Rn
Como mencionó, calcule la información mutua a través de entropías. Esta puede ser tu mejor opción; los estimadores basados en el vecino más cercano funcionan bien en dimensiones bajas, e incluso los histogramas no son terribles en 2d. Si le preocupa el error de estimación, este estimador es simple y le ofrece límites de muestra finita (la mayoría de los demás solo demuestran propiedades asintóticas):
Alternativamente, existen estimadores directos similares para la información mutua, por ej.
El criterio de independencia de Hilbert-Schmidt: un enfoque basado en el núcleo (en el sentido de RKHS, no KDE).
El enfoque de Schweizer-Wolff: basado en transformaciones de cópula, por lo que es invariante a las transformaciones crecientes monótonas. No estoy muy familiarizado con este, pero creo que es computacionalmente más simple pero también quizás menos potente.
fuente
k
vecinos). No tengo idea de cómo se compara en términos de poder estadístico / etc.Hoeffding desarrolló una prueba general no paramétrica para la independencia de dos variables continuas utilizando rangos conjuntos para probar . Esta prueba de 1948 se implementa en la función del paquete R.H0 0: H( x , y) = F( x ) G ( y)
Hmisc
hoeffd
fuente
¿Qué tal este artículo?
http://arxiv.org/pdf/0803.4101.pdf
"Medición y prueba de dependencia por correlación de distancias". Székely y Bakirov siempre tienen cosas interesantes.
Hay código matlab para la implementación:
http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation
Si encuentra alguna otra prueba de independencia (fácil de implementar), infórmenos.
fuente
El vínculo entre la Covarianza de distancia y las pruebas de kernel (basado en el criterio de independencia de Hilbert-Schmidt) se proporciona en el documento:
Sejdinovic, D., Sriperumbudur, B., Gretton, A. y Fukumizu, K., Equivalencia de estadísticas basadas en distancia y RKHS en pruebas de hipótesis, Annals of Statistics, 41 (5), pp.2263-2702, 2013
Se muestra que la covarianza de distancia es un caso especial de la estadística del núcleo, para una familia particular de núcleos.
Si tiene la intención de utilizar información mutua, una prueba basada en una estimación agrupada del IM es:
Gretton, A. y Gyorfi, L., Pruebas consistentes no paramétricas de independencia, Journal of Machine Learning Research, 11, pp.1391--1423, 2010.
Si está interesado en obtener el mejor poder de prueba, es mejor que use las pruebas del kernel, en lugar de binning e información mutua.
Dicho esto, dado que sus variables son univariadas, las pruebas de independencia no paramétricas clásicas como las de Hoeffding probablemente estén bien.
fuente
Raramente (¿nunca?) En estadísticas puede demostrar que su estadística de muestra = un valor de punto. Puede probar contra valores de puntos y excluirlos o no excluirlos. Pero la naturaleza de las estadísticas es que se trata de examinar datos variables. Debido a que siempre hay variación, entonces no habrá necesariamente forma de saber que algo no está exactamente relacionado, normal, gaussiano, etc. Solo puede conocer un rango de valores para ello. Puede saber si un valor está excluido del rango de valores plausibles. Por ejemplo, es fácil excluir ninguna relación y dar un rango de valores para cuán grande es la relación.
Por lo tanto, tratando de demostrar que no hay relación, esencialmente el valor del punto de
relationship = 0
no se va a encontrar con éxito. Si tiene un rango de medidas de relación que son aceptables como aproximadamente 0. Entonces sería posible diseñar una prueba.Suponiendo que puede aceptar esa limitación, sería útil para las personas que intentan ayudarlo a proporcionar un diagrama de dispersión con una curva baja. Como está buscando soluciones R, intente:
Según la información limitada que ha proporcionado hasta ahora, creo que un modelo aditivo generalizado podría ser lo mejor para probar la no independencia. Si traza eso con CI alrededor de los valores pronosticados, puede hacer declaraciones sobre una creencia de independencia. Echa un vistazo
gam
en el paquete mgcv. La ayuda es bastante buena y hay asistencia aquí con respecto al IC .fuente
Puede ser interesante ...
García, JE; Gonzalez-Lopez, VA (2014) Pruebas de independencia para variables aleatorias continuas basadas en la subsecuencia creciente más larga. Journal of Multivariate Analysis, v. 127 p. 126-146.
http://www.sciencedirect.com/science/article/pii/S0047259X14000335
fuente
Si usa R, la
cor.test
función en el paquete de estadísticas (predeterminado en R) puede hacer eso:Prueba de asociación / correlación entre muestras emparejadas. Pruebe la asociación entre muestras emparejadas, utilizando uno de los coeficientes de correlación de momento del producto de Pearson, Kendall's tau o Spearman rho.
fuente