Pruebe la diferencia entre 2 distribuciones discretas empíricas

14

Tengo datos de prueba donde tengo varias muestras grandes de distribuciones discretas que estoy usando como distribuciones empíricas. Quiero probar si las distribuciones son realmente diferentes y cuál es la diferencia de medias para aquellas distribuciones que son realmente diferentes.

Como son distribuciones discretas, entiendo que la prueba de Kolmogorov-Smirnov no es válida debido a la suposición de distribución continua subyacente. ¿La prueba Chi-Squared sería la prueba correcta para determinar si las distribuciones son realmente diferentes?

¿Qué prueba usaría para la diferencia de medias? ¿Sería un mejor enfoque tomar muestras de las distribuciones y tomar la diferencia y luego realizar un análisis sobre la distribución de la diferencia?

Wallhood
fuente
Sí, la es la correcta. La respuesta aceptada a esta pregunta se desarrolla sobre eso. distribución 1 = urna 1 y distribución 2 = urna 2 . Allí, los valores de las variables aleatorias son colores y, en su caso, probablemente algo más, por ejemplo, números discretos. χ2
Georg Schnabel
Gracias por los comentarios. ¿Existe una prueba de cuál es la diferencia de medias para cuando la prueba de ji cuadrado confirma que las distribuciones son diferentes?
Wallhood
¿Sería un mejor enfoque tomar muestras de las distribuciones y tomar la diferencia y luego realizar un análisis de la diferencia?
Wallhood

Respuestas:

13

1) El Kolmogorov-Smirnov todavía se puede usar, pero si usa los valores críticos tabulados será conservador (lo cual es solo un problema porque empuja hacia abajo su curva de potencia). Es mejor obtener la distribución de permutación de la estadística, de modo que sus niveles de significación sean los que elija. Esto solo hará una gran diferencia si hay muchos lazos. Este cambio es realmente fácil de implementar. (Pero la prueba KS no es la única comparación posible; si se calculan distribuciones de permutación de todos modos, hay otras posibilidades).

2) las pruebas de bondad de ajuste de chi-cuadrado de vainilla para datos discretos son, en mi opinión, una muy mala idea. Si la pérdida de potencia potencial anterior lo detuvo usando la prueba KS, el problema con el chi-cuadrado a menudo es mucho peor: arroja la información más crítica, que es el orden entre las categorías (los valores de observación), desinflando su potencia extendiéndolo a través de alternativas que no consideran el orden, de modo que es peor detectar alternativas suaves, como un cambio de ubicación y escala, por ejemplo). Incluso con los malos efectos de los lazos pesados ​​mencionados anteriormente, la prueba KS en muchos casos aún tiene mejor potencia (mientras reduce la tasa de error Tipo I).

El chi-cuadrado también se puede modificar para tener en cuenta el orden (dividir el chisquare en componentes lineales, cuadráticos, cúbicos, etc. a través de polinomios ortogonales y usar solo los pocos términos de orden bajo: 4 a 6 son opciones comunes). Los documentos de Rayner y Best (y otros) discuten este enfoque, que surge de las pruebas suaves de Neyman-Barton. Este es un buen enfoque, pero si no tiene acceso al software, puede tomar un poco de configuración.

Cualquiera de los enfoques modificados debería estar bien, pero si no va a modificar ninguno de los enfoques, no es necesariamente el caso de que el chi-cuadrado sea mejor que la prueba KS, en algunas situaciones podría ser mejor ... o puede ser sustancialmente peor

Si los lazos no son pesados ​​(es decir, los datos toman muchos valores diferentes), consideraría el KS tal como está. Si son moderados, buscaría calcular la distribución de permutación. Si son muy pesados ​​(es decir, los datos solo toman unos pocos valores diferentes), el chi-cuadrado simple puede ser competitivo.

Glen_b -Reinstate a Monica
fuente
Gracias por la advertencia. Tomaré eso en cuenta cuando decida usar la prueba KS o el Chi-Squared
Wallhood