Tengo dos grupos de datos. Cada uno con una distribución diferente de múltiples variables. Estoy tratando de determinar si las distribuciones de estos dos grupos son diferentes de una manera estadísticamente significativa. Tengo los datos en forma cruda y agrupados en categorías más fáciles de manejar con recuentos de frecuencia en cada uno.
¿Qué pruebas / procedimientos / métodos debo utilizar para determinar si estos dos grupos son significativamente diferentes y cómo lo hago en SAS o R (o Orange)?
distributions
statistical-significance
Jay Stevens
fuente
fuente
Respuestas:
Creo que esto requiere una prueba de Kolmogorov-Smirnov de dos muestras , o similar. La prueba de Kolmogorov-Smirnov de dos muestras se basa en la comparación de diferencias en las funciones de distribución empírica (ECDF) de dos muestras, lo que significa que es sensible tanto a la ubicación como a la forma de las dos muestras. También se generaliza a una forma multivariante.
Esta prueba se encuentra en varias formas en diferentes paquetes en R, por lo que si es básicamente competente, todo lo que tiene que hacer es instalar uno de ellos (por ejemplo, fBasics ) y ejecutarlo en sus datos de muestra.
fuente
proc npar1way
. En R, además deks.test()
, está elnortest
paquete que proporciona varias otras pruebas de ajuste.Voy a hacer la pregunta tonta del consultor. ¿Por qué quiere saber si estas distribuciones son diferentes de una manera estadísticamente significativa?
¿Es que los datos que está utilizando son muestras representativas de poblaciones o procesos, y desea evaluar la evidencia de que esas poblaciones o procesos difieren? Si es así, entonces una prueba estadística es adecuada para usted. Pero esto me parece una pregunta extraña.
¿O le interesa saber si realmente necesita comportarse como si esas poblaciones o procesos fueran diferentes, independientemente de la verdad? Entonces será mejor que determine una función de pérdida, idealmente una que devuelva unidades que sean significativas para usted, y que prediga la pérdida esperada cuando (a) trate a las poblaciones como diferentes y (b) las trate como lo mismo. O puede elegir un cuantil de la distribución de pérdidas si desea adoptar una posición más o menos conservadora.
fuente
Quizás le interese aplicar métodos de distribución relativos. Llame a un grupo el grupo de referencia y al otro al grupo de comparación. De manera similar a la construcción de una gráfica de probabilidad-probabilidad, puede construir un CDF / PDF relativo, que es una relación de las densidades. Esta densidad relativa se puede usar para inferencia. Si las distribuciones son idénticas, espera una distribución relativa uniforme. Existen herramientas, gráficas y estadísticas, para explorar y examinar las desviaciones de la uniformidad.
Un buen punto de partida para tener una mejor idea es la aplicación de métodos de distribución relativa en R y el paquete reldist en R. Para obtener más información, deberá consultar el libro Métodos de distribución relativa en las ciencias sociales de Handcock y Morris. También hay un artículo de los autores que cubre las técnicas relevantes.
fuente
Una medida de la diferencia entre dos distribuciones es el criterio de "máxima discrepancia media", que básicamente mide la diferencia entre las medias empíricas de las muestras de las dos distribuciones en un espacio de Hilbert del núcleo de reproducción (RKHS). Consulte este documento "Un método de kernel para los dos problemas de muestra" .
fuente
No sé cómo usar SAS / R / Orange, pero parece que el tipo de prueba que necesita es una prueba de chi-cuadrado .
fuente