Digamos que tengo dos o más poblaciones de muestra de vectores de valores continuos n-dimensionales. ¿Hay alguna forma no paramétrica de probar si estas muestras son de la misma distribución? Si es así, ¿hay una función en R o python para esto?
15
Respuestas:
Acabo de investigar mucho sobre las pruebas de dos muestras multivariadas cuando me di cuenta de que la prueba de Kolmogorov-Smirnov no era multivariada. Así que miré la prueba de Chi, la T ^ 2 de Hotelling, el criterio de Anderson-Darling, Cramer-von Mises, Shapiro-Wilk, etc. Hay que tener cuidado porque algunas de estas pruebas dependen de que los vectores se comparen para ser del mismo longitud. Otros solo se utilizan para rechazar el supuesto de normalidad, no para comparar dos distribuciones de muestra.
La solución principal parece comparar las funciones de distribución acumulativa de las dos muestras con todos los ordenamientos posibles que, como puede sospechar, es muy computacionalmente intensivo, del orden de minutos para una sola ejecución de una muestra que contiene unos pocos miles de registros:
https://cran.r-project.org/web/packages/Peacock.test/Peacock.test.pdf
Como dice la documentación de Xiao, la prueba de Fasano y Franceschini es una variante de la prueba de Pavo Real:
http://adsabs.harvard.edu/abs/1987MNRAS.225..155F
La prueba de Fasano y Franceschini tenía la intención específica de ser menos computacionalmente intensiva, pero no he encontrado una implementación de su trabajo en R.
Para aquellos de ustedes que desean explorar los aspectos computacionales de la prueba de Peacock versus Fasano y Franceschini, revisen los algoritmos computacionalmente eficientes para la prueba bidimensional de Kolmogorov-Smirnov
fuente
El paquete R np (no paramétrico) tiene una prueba de igualdad de densidades de datos continuos y categóricos utilizando la densidad cuadrada integrada. Li, Maasoumi y Racine (2009)
Así como np pdf condicional en la sección 6 .
fuente
Sí, hay formas no paramétricas de probar si dos muestras multivariadas provienen de la misma distribución conjunta. Mencionaré detalles, excepto los mencionados por L Fischman . El problema básico que está preguntando puede denominarse como 'Problema de dos muestras' y actualmente se está realizando una buena cantidad de investigación en revistas como Journal of Machine Learning Research y Annals of Statistics y otras. Con mi poco conocimiento sobre este problema, puedo dar instrucciones de la siguiente manera
Si su interés es comparar varios conjuntos de puntos (conjuntos de muestras) con el conjunto de puntos de referencia, para ver qué tan cerca se aproximan al conjunto de puntos de referencia, puede usar la divergencia f .
También puede haber otras formas de abordar, esta respuesta no es de ninguna manera un tratamiento integral de su pregunta;)
fuente