¿Cómo pruebo si dos distribuciones (no normales) difieren?

He leído sobre la prueba t de Student, pero parece funcionar cuando podemos suponer que las distribuciones originales se distribuyen normalmente. En mi caso, definitivamente no lo son.

Además, si tengo 13 distribuciones, ¿debo hacer 13^2pruebas?

Aquí hay una muestra de dos distribuciones. Hay 13 distribuciones.

r hypothesis-testing distributions Martín Vélez
fuente

@Glen_b Los datos no son discretos. Los valores oscilan entre -2 y 2.

Martin Velez

Respuestas:

Hay varios sentidos en los que "depende".

(Una posible preocupación es que parece que los datos originales tal vez sean discretos; eso debería aclararse).

dependiendo del tamaño de la muestra, la no normalidad puede no ser un problema tan grande como todo eso para la prueba t. Para muestras grandes, al menos, generalmente hay un buen nivel de robustez: las tasas de error Tipo I no deberían verse muy afectadas si no está muy lejos de lo normal. El poder puede ser más un problema con colas pesadas.
Si está buscando algún tipo de diferencia en la distribución, una prueba de bondad de ajuste de dos muestras, como la prueba de Kolmogorov-Smirnov de dos muestras, podría ser adecuada (aunque en su lugar podrían hacerse otras pruebas).
Si está buscando diferencias de tipo de ubicación en una familia de ubicación, o diferencias de escala en una familia de escala, o incluso solo una relación de tipo P (X> Y)> P (Y> X), una Wilcoxon-Mann-Whitney dos pruebas de muestra pueden ser adecuadas.
Puede considerar las pruebas de remuestreo, como las pruebas de permutación o bootstrap, si puede encontrar una estadística adecuada para los tipos de diferencias a las que desea tener sensibilidad.

Además, si tengo 13 distribuciones, ¿debo hacer 13 ^ 2 pruebas?

Pues no .

$A$ $B$ $B$ $A$

$A$ $A$ .

Esas dos cosas redujeron las comparaciones por pares de 169 a 78.

En tercer lugar, sería mucho más habitual (pero no obligatorio) realizar pruebas colectivas de cualquier diferencia, y luego, tal vez observar las diferencias por pares en las pruebas por pares post-hoc si el primer nulo fue rechazado.

Por ejemplo, en lugar de un Wilcoxon-Mann-Whitney como en el punto 3. anterior, uno podría hacer una prueba de Kruskal-Wallis, que es sensible a cualquier diferencia de ubicación entre los grupos.

También hay versiones de muestra k de la prueba de Kolmogorov-Smirnov , y pueden existir, o construirse, pruebas similares de algunas de las otras pruebas de bondad de ajuste de dos muestras.

También hay versiones de muestra k de las pruebas de remuestreo y de la prueba t (es decir, ANOVA, que podría estar bien si los tamaños de muestra son razonablemente grandes).

Sería realmente bueno obtener más información acerca de lo que estamos tratando y qué tipo de diferencias le interesan más; o en su defecto, para ver gráficos QQ de algunas de las muestras.

Glen_b -Reinstate a Monica
fuente

(+1) Solo quisiera agregar que la prueba WMW tiene una interpretación como una prueba de dominio estocástico si está preparado para asumir que las CDF de la población no se cruzan. Las personas de la OMI lo desearían con mayor frecuencia si lo supieran.

Scortchi - Restablece a Monica

P (X < Y) \neq \frac{1}{2}

$P(X<Y) \neq \frac{1}{2}$

@Glen_b Los datos no son discretos. Los valores varían de -2 a 2.

Martin Velez

Wow - información importante! ¿Están limitados a ese rango (2.1 es imposible), o simplemente sucedió que los valores están en ese rango?

Glen_b -Reinstale a Monica

Están limitados a ese rango.

Martin Velez

Sí, creo que no puedes hacerlo mejor que probar cada distribución contra las otras ...

Si cree que su pregunta está relacionada con esta: Comparación de 2 distribuciones

Le aconseja utilizar una prueba de Kolmogorov-Sminorv o una prueba de Cramér-Von Mises. Ambas son pruebas de adecuación muy clásicas.

En R, la función ks.testen el paquete de estadísticas implementa el primero. El segundo se puede encontrar en paquetes como cramer.

Para conocer estas dos pruebas: http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test http://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93von_Mises_criterion

"Se utiliza para comparar más de dos muestras que son independientes o no están relacionadas"

Las violaciones de la normalidad en ANOVA se discutieron en
Rutherford, Introducción de Anova y Ancova: un enfoque GLM 9.1.2 Violaciones de la normalidad

La primera línea es "Aunque la mayoría de las fuentes informan que ANOVA ... es robusto con respecto a las violaciones del supuesto de normalidad ..."

abbat_VL
fuente

¡Gracias! Parece que uno debería ejecutar esta prueba antes de hacer comparaciones por pares.

Martin Velez