Digamos que tengo dos muestras. Si quiero saber si provienen de diferentes poblaciones, puedo ejecutar una prueba t. Pero digamos que quiero probar si las muestras son de la misma población. ¿Cómo se hace esto? Es decir, ¿cómo calculo la probabilidad estadística de que estas dos muestras se extraigan de la misma población?
statistical-significance
usuario1566200
fuente
fuente
Respuestas:
Las pruebas que comparan distribuciones son pruebas de descarte. Comienzan con la hipótesis nula de que las 2 poblaciones son idénticas, luego intentan rechazar esa hipótesis. Nunca podemos probar que el nulo sea verdadero, simplemente rechazarlo, por lo que estas pruebas realmente no pueden usarse para mostrar que 2 muestras provienen de la misma población (o poblaciones idénticas).
Esto se debe a que podría haber diferencias menores en las distribuciones (lo que significa que no son idénticas), pero tan pequeñas que las pruebas realmente no pueden encontrar la diferencia.
Considere 2 distribuciones, la primera es uniforme de 0 a 1, la segunda es una mezcla de 2 uniformes, por lo que es 1 entre 0 y 0.999, y también 1 entre 9.999 y 10 (0 en otra parte). Claramente, estas distribuciones son diferentes (si la diferencia es significativa es otra pregunta), pero si toma un tamaño de muestra de 50 de cada (100 en total) hay más de un 90% de posibilidades de que solo vea valores entre 0 y 0.999 y ser incapaz de ver ninguna diferencia real
Hay formas de hacer lo que se llama prueba de equivalencia en la que pregunta si las 2 distribuciones / poblaciones son equivalentes, pero debe definir lo que considera equivalente. Generalmente es que alguna medida de diferencia está dentro de un rango dado, es decir, la diferencia en las 2 medias es inferior al 5% del promedio de las 2 medias, o el estadístico KS está por debajo de un límite dado, etc. Si usted luego puede calcular un intervalo de confianza para el estadístico de diferencia (la diferencia de medias podría ser simplemente el intervalo de confianza t, el arranque, la simulación u otros métodos pueden ser necesarios para otras estadísticas). Si todo el intervalo de confianza cae en la "región de equivalencia", consideramos que las 2 poblaciones / distribuciones son "equivalentes".
La parte difícil es descubrir cuál debería ser la región de equivalencia.
fuente
http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
Suponiendo que sus valores de muestra provienen de distribuciones continuas, sugeriría la prueba de Kolmogorov-Smirnov. Se puede usar para probar si dos muestras provienen de diferentes distribuciones (así es como interpreto su uso de la población) en función de sus distribuciones empíricas asociadas.
Directamente de Wikipedia:
La función ks.test en R puede usarse para esta prueba.
Si bien es cierto que kstest no prueba la homogeneidad, argumentaría que si no lo rechaza con un tamaño de muestra lo suficientemente grande (una prueba de alta potencia), puede afirmar que las diferencias no son prácticamente significativas. Se podría inferir que si existen diferencias, es probable que no sean significativas (de nuevo, suponiendo un gran tamaño de muestra). No puede concluir que son de la misma población que otros han declarado correctamente. Dicho todo esto, normalmente solo examinaría gráficamente las dos muestras en busca de similitud.
fuente
Puede usar una 'función de desplazamiento' que verifica si las 2 distribuciones difieren en cada decil. Si bien técnicamente es una prueba de si son de diferentes poblaciones en lugar de las mismas, si las distribuciones no difieren en ninguno de los deciles, entonces puede estar razonablemente seguro de que son de la misma población, especialmente si los tamaños de grupo son grandes.
También me gustaría visualizar los 2 grupos: superposición de sus distribuciones y ver si se parecen entre sí, o mejor aún dibujar un par de miles de muestras de arranque de cada grupo y trazar los , ya que esto le dará una idea de si proceden de la misma población particularmente si la población en cuestión no se distribuye normalmente para usted dada la variable.
fuente