¿Prueba estadística para determinar si dos muestras se extraen de la misma población?

30

Digamos que tengo dos muestras. Si quiero saber si provienen de diferentes poblaciones, puedo ejecutar una prueba t. Pero digamos que quiero probar si las muestras son de la misma población. ¿Cómo se hace esto? Es decir, ¿cómo calculo la probabilidad estadística de que estas dos muestras se extraigan de la misma población?

usuario1566200
fuente
1
Explique, lo más cuantitativamente posible, qué quiere decir con "lo mismo". También ayudaría a aclarar lo que quiere decir con "condición".
whuber
Una prueba como un Kolmogorov-Smirnov de dos muestras (no es la única posibilidad; con las suposiciones habituales, la prueba t está probando lo mismo, como se observa) puede probar si las distribuciones de población son diferentes (pero el fracaso para rechazar no lo hace) t significa que en realidad son lo mismo). Sin embargo, ninguna prueba puede decirle si dos distribuciones que no son muy diferentes son en realidad de la misma población , en lugar de dos poblaciones diferentes con distribuciones similares. Eso tendría que venir de suposiciones u otra investigación. ...
ctd
3
ctd ... Del mismo modo, las pruebas ni siquiera pueden decirle que las distribuciones son idénticas, ya que pueden diferir de manera trivial. Es posible que desee buscar en 'prueba de equivalencia' o 'prueba de equivalencia', en la que debería obtener bastantes resultados aquí o en google.
Glen_b -Reinstate Monica

Respuestas:

20

Las pruebas que comparan distribuciones son pruebas de descarte. Comienzan con la hipótesis nula de que las 2 poblaciones son idénticas, luego intentan rechazar esa hipótesis. Nunca podemos probar que el nulo sea verdadero, simplemente rechazarlo, por lo que estas pruebas realmente no pueden usarse para mostrar que 2 muestras provienen de la misma población (o poblaciones idénticas).

Esto se debe a que podría haber diferencias menores en las distribuciones (lo que significa que no son idénticas), pero tan pequeñas que las pruebas realmente no pueden encontrar la diferencia.

Considere 2 distribuciones, la primera es uniforme de 0 a 1, la segunda es una mezcla de 2 uniformes, por lo que es 1 entre 0 y 0.999, y también 1 entre 9.999 y 10 (0 en otra parte). Claramente, estas distribuciones son diferentes (si la diferencia es significativa es otra pregunta), pero si toma un tamaño de muestra de 50 de cada (100 en total) hay más de un 90% de posibilidades de que solo vea valores entre 0 y 0.999 y ser incapaz de ver ninguna diferencia real

Hay formas de hacer lo que se llama prueba de equivalencia en la que pregunta si las 2 distribuciones / poblaciones son equivalentes, pero debe definir lo que considera equivalente. Generalmente es que alguna medida de diferencia está dentro de un rango dado, es decir, la diferencia en las 2 medias es inferior al 5% del promedio de las 2 medias, o el estadístico KS está por debajo de un límite dado, etc. Si usted luego puede calcular un intervalo de confianza para el estadístico de diferencia (la diferencia de medias podría ser simplemente el intervalo de confianza t, el arranque, la simulación u otros métodos pueden ser necesarios para otras estadísticas). Si todo el intervalo de confianza cae en la "región de equivalencia", consideramos que las 2 poblaciones / distribuciones son "equivalentes".

La parte difícil es descubrir cuál debería ser la región de equivalencia.

Greg Snow
fuente
2
Una prueba de hipótesis nula nunca puede proporcionar evidencia de la hipótesis nula, es cierto. Sin embargo, la selección del modelo, ya sea bayesiano o basado en algún "criterio" (AIC, BIC) podría indicar que un modelo nulo (distribuciones idénticas) es una mejor descripción de los datos que un modelo alternativo (distribución diferente). Todo eso bajo un montón de suposiciones, por supuesto.
A. Donda
6

http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

Suponiendo que sus valores de muestra provienen de distribuciones continuas, sugeriría la prueba de Kolmogorov-Smirnov. Se puede usar para probar si dos muestras provienen de diferentes distribuciones (así es como interpreto su uso de la población) en función de sus distribuciones empíricas asociadas.

Directamente de Wikipedia:

La distribución nula de esta estadística se calcula bajo la hipótesis nula de que las muestras se extraen de la misma distribución (en el caso de dos muestras)

La función ks.test en R puede usarse para esta prueba.

Si bien es cierto que kstest no prueba la homogeneidad, argumentaría que si no lo rechaza con un tamaño de muestra lo suficientemente grande (una prueba de alta potencia), puede afirmar que las diferencias no son prácticamente significativas. Se podría inferir que si existen diferencias, es probable que no sean significativas (de nuevo, suponiendo un gran tamaño de muestra). No puede concluir que son de la misma población que otros han declarado correctamente. Dicho todo esto, normalmente solo examinaría gráficamente las dos muestras en busca de similitud.

Socavador
fuente
66
Dudo que la prueba de KS pueda usarse para mostrar equivalencia distributiva.
Michael M
@MichaelMayer eso es exactamente correcto. OP está interesado en una prueba de homogeneidad ... que tiene muchos problemas metodológicos subyacentes. KS para la heterogeneidad también tiene sus problemas: en la práctica, se va a rechazar en muestras grandes, independientemente de si las poblaciones son prácticamente idénticos en todos los aspectos. Simplemente demuestra que las pruebas, y en consecuencia los valores p, se conciben mejor como medidas del tamaño de la muestra que la significación estadística.
AdamO
@AdamO Sí, pero si tiene muestras grandes y no las rechaza, estaría seguro de que las poblaciones son prácticamente idénticas. Hasta donde yo sé, no existe una teoría que respalde esto, pero por experiencia, saber que el KS para la heterogeneidad puede detectar pequeñas diferencias con un tamaño de muestra grande puede permitirle usar una prueba de muestra grande fallida como una declaración de facto de prácticamente poblaciones idénticas ¿Responde mi respuesta a la pregunta "calcular la probabilidad estadística de que estas dos muestras se extraigan de la misma población"? Ciertamente no.
Underminer
¿Qué puedo hacer si mis puntos son bidimensionales ? Es decir, tengo dos muestras de puntos bidimensionales, y quiero saber si provienen de distribuciones distintas.
becko
La prueba KS solo funciona contra una distribución predefinida, no desde una distribución con parámetros estimados a partir de datos.
qwr
2

Puede usar una 'función de desplazamiento' que verifica si las 2 distribuciones difieren en cada decil. Si bien técnicamente es una prueba de si son de diferentes poblaciones en lugar de las mismas, si las distribuciones no difieren en ninguno de los deciles, entonces puede estar razonablemente seguro de que son de la misma población, especialmente si los tamaños de grupo son grandes.

También me gustaría visualizar los 2 grupos: superposición de sus distribuciones y ver si se parecen entre sí, o mejor aún dibujar un par de miles de muestras de arranque de cada grupo y trazar los , ya que esto le dará una idea de si proceden de la misma población particularmente si la población en cuestión no se distribuye normalmente para usted dada la variable.

Richie
fuente