Kolmogorov Smirnov Z vs Mann Whitney U tamaño de muestra pequeña n = 15?

8

Tengo un tamaño de muestra pequeño de 15. Quiero ver si hay una diferencia en la ingesta de nutrientes entre dos variables independientes, grupo 1 n = 11, grupo 2 n = 4. Los datos no se distribuyen normalmente. ¿Qué prueba es más apropiada, la prueba de Mann Whitney U o la prueba de Kolmogorov-Smirnov Z? Las estadísticas de descubrimiento de Andy Field usando SPSS establecen que KS Z debe usarse para tamaños de muestra pequeños:

Kolmogorov-Smirnov Z: En el Capítulo 5 nos encontramos con una prueba de Kolmogorov-Smirnov que probó si una muestra era de una población distribuida normalmente. Esta es una prueba diferente! De hecho, prueba si dos grupos han sido extraídos de la misma población (independientemente de cuál sea esa población). En efecto, esto significa que hace casi lo mismo que la prueba de Mann-Whitney. Sin embargo, esta prueba tiende a tener una mejor potencia que la prueba de Mann-Whitney cuando los tamaños de muestra son inferiores a aproximadamente 25 por grupo, por lo que vale la pena seleccionar si ese es el caso.

Además, al informar las ingestas junto con los valores de p, ¿debo usar la media y la desviación estándar o la mediana y la IQR ya que los datos no son paramétricos?

Cualquier consejo sería muy apreciado.

AMH40
fuente
3
Los datos son lo que son; son procedimientos, no datos que no son paramétricos o paramétricos. En este caso, publique los datos. La no normalidad leve no es fatal para muchos procedimientos.
Nick Cox
2
En ese texto de Field, consulte @whuber en stats.stackexchange.com/questions/157217/… "algunas de las preguntas realmente confusas que recibimos en este sitio ... deben provenir de los lectores de ese libro. Está lleno de errores, desinformación y confabulación absoluta ".
Nick Cox
2
También ejercería extrema precaución con ese libro. Sería mejor averiguar si hay evidencia de que las varias afirmaciones que cita son verdaderas que asumir que son correctas.
Glen_b -Reinstate Monica
Leí esta pregunta porque tiene una respuesta o variable de resultado y un predictor que define dos grupos. Los términos variables dependientes e independientes a menudo se invierten sin darse cuenta, uno de varios argumentos para evitar esos términos, por familiares que sean.
Nick Cox
La respuesta sobresaliente de @Glen_b, naturalmente, no arroja luz sobre sus datos específicos. Todavía está abierto para publicarlo y dejar que la gente juegue con recomendaciones.
Nick Cox

Respuestas:

13

Si la declaración original no limita las condiciones bajo las cuales se aplica bastante, Field está equivocado en esto.

Respondiendo a la sección citada:

En efecto, esto significa que hace casi lo mismo que la prueba de Mann-Whitney.

No, realmente no lo hace. Realmente prueban diferentes tipos de cosas. Como un ejemplo, si dos distribuciones cercanas a la simétrica difieren en la propagación pero no difieren en la ubicación, el Kolmogorov-Smirnov puede identificar ese tipo de diferencia (en muestras suficientemente grandes en relación con el efecto) pero el Wilcoxon-Mann-Whitney hipocresía.

Esto se debe a que están diseñados para diferentes propósitos.

"Sin embargo, esta prueba tiende a tener una mejor potencia que la prueba de Mann-Whitney cuando los tamaños de muestra son inferiores a aproximadamente 25 por grupo, por lo que vale la pena seleccionarlos si ese es el caso".

Como afirmación general, esto no tiene sentido. Contra las cosas que Mann-Whitney no prueba tiene mejor poder, pero contra las cosas para las que está destinado Mann-Whitney, no lo tiene. Esto no cambia cuando .n<25

[Puede haber alguna situación en la que el reclamo sea verdadero; Si Field no explica en qué contexto se aplica su reclamo, es probable que no pueda adivinarlo.]

Aquí hay una curva de potencia para n = 20 por grupo. El nivel de significación es un poco más del 3% para cada prueba (de hecho, el nivel de significación alcanzable para el KS es ligeramente mayor y no he intentado utilizar una prueba aleatoria para ajustar esa diferencia, por lo que se le ha dado una pequeña ventaja en esta comparación ):

Gráfico de potencia en varios turnos para muestras normales bajo alternativa de turno en n = 20 en cada grupo

Como vemos, en este caso (el primero que probé) el Wilcoxon-Mann-Whitney es claramente más poderoso.

En n = 5, el Kolmogorov-Smirnov sigue siendo menos poderoso para esta situación. [¿De qué diablos está hablando? ¿Está comparando el poder para alguna situación no mencionada en la cita? No lo sé, pero siguiendo solo lo que se cita aquí, no debemos tomar esa afirmación al pie de la letra. Estaba mal en lo primero que comprobé y, en base a una mayor familiaridad con las dos pruebas, apostaría fácilmente que está mal para muchas otras situaciones.]

En tamaños de muestra de 4 y 11 para alternativas de turno (y poblaciones normales), nuevamente, Wilcoxon-Mann-Whitney funciona mejor.

Con la variable que está viendo, una alternativa adecuada es probablemente algo más como un cambio de escala; pero si algo de potencia (como una raíz cuadrada o una raíz cúbica, por ejemplo, o mejor aún un registro) de sus datos no son demasiado normales, estos resultados que menciono deberían ser relevantes. Si tiene datos discretos o inflados a cero que pueden hacer alguna diferencia, pero mi apuesta sería que el Kolmogorov-Smirnov no supere al Wilcoxon-Mann-Whitney tampoco. [No buscaré esto en este momento porque no está claro si es relevante para su situación.]

Además, los niveles de significancia alcanzables con Kolmogorov-Smirnov son muy vacíos en muestras pequeñas. A menudo no puede obtener pruebas cercanas a los niveles de significancia habituales que probablemente desee. (El WMW funciona mucho mejor que el KS en relación con los tamaños de prueba disponibles. Hay una forma ordenada de mejorar drásticamente esta situación de falta de niveles sin perder ni la naturaleza no paramétrica ni la basada en el rango de pruebas como estas; eso tampoco implican pruebas aleatorias, pero parece que rara vez se usa por alguna razón).

Tenga en cuenta que elegí cuidadosamente ejemplos que hicieron que los niveles de las dos pruebas fueran casi comparables. Si acaba de elegir cada vez que sin tener en cuenta los niveles disponibles y la comparación de un valor de p para que, a continuación, el gappiness de los niveles alcanzables la de Kolmogorov-Smirnov se va a hacer su poder mucho peor en general (aunque voluntad muy de vez en cuando lo ayudo un poco, ya que esta ventaja generalmente no será demasiado y probablemente no sea suficiente para ayudarlo a vencer al WMW en la tarea para la que es adecuado).α=0.05

Si se encuentra en una situación en la que Wilcoxon-Mann-Whitney prueba lo que desea probar, definitivamente no recomendaría usar Kolmogorov-Smirnov en su lugar. Usaría cada prueba para lo que están diseñados para probar, que es donde tienden a hacerlo bastante bien.

La mejor manera de descubrir qué es lo mejor es probar algunas simulaciones en situaciones que serían realistas para el tipo de datos que tendrá. Entonces puedes ver cuándo hace qué.

Además, al informar las ingestas junto con los valores de p, ¿debo usar la media y la desviación estándar o la mediana y la IQR ya que los datos no son paramétricos?

Los datos son solo datos. No son ni paramétricos ni no paramétricos: es una propiedad de los modelos y procedimientos inferenciales que utilizamos que se basan en ellos (estimación, prueba, intervalos). Paramétrico significa "definido hasta un número fijo y finito de parámetros", que no es un atributo de datos sino de modelos. Si no puede simplemente dar ambos conjuntos de valores (que sería mi preferencia) y, en su lugar, debe elegir uno u otro, ¿cuál es más relevante científicamente o en relación con su pregunta de interés?

[Tenga en cuenta que Wilcoxon-Mann-Whitney no compara medios ni medianas (a menos que agregue algunas suposiciones, apuesto a que no se acercan a la aplicación en este caso). Tampoco el Kolmogorov-Smirnov.]

Glen_b -Reinstate a Monica
fuente