¿Por qué son tan difíciles los lazos en las estadísticas no paramétricas?

14

Mi texto no paramétrico , Estadísticas prácticas no paramétricas , a menudo da fórmulas limpias para expectativas, variaciones, estadísticas de prueba y similares, pero incluye la advertencia de que esto solo funciona si ignoramos los lazos. Al calcular la estadística U de Mann-Whitney, se recomienda tirar pares empatados al comparar cuál es más grande.

Entiendo que los lazos realmente no nos dicen mucho sobre qué población es más grande (si eso es lo que nos interesa) ya que ninguno de los grupos es más grande que el otro, pero no parece que eso importe al desarrollar distribuciones asintóticas.

¿Por qué entonces se trata de un dilema con los lazos en algunos procedimientos no paramétricos? ¿Hay alguna forma de extraer información útil de los lazos, en lugar de simplemente tirarlos?

EDITAR: En lo que respecta al comentario de @ whuber, revisé mis fuentes nuevamente, y algunos procedimientos usan un promedio de rangos en lugar de eliminar los valores vinculados por completo. Si bien esto parece más sensato en referencia a la retención de información, también me parece que carece de rigor. Sin embargo, el espíritu de la pregunta sigue en pie.

Christopher Aden
fuente
¿Está diciendo que las Estadísticas prácticas no paramétricas le dicen que " deseche " datos cuando están vinculados? ¿Tal vez podrías interpretar mal su consejo? ¿Podría citarlo exactamente?
Whuber
Sí, es posible que esté malinterpretando el consejo. Del mismo autor: jstor.org/stable/2284536 "Wilcoxon sugirió eliminar los ceros de los datos inicialmente y realizar la prueba en el conjunto reducido de datos. Si no hay vínculos distintos de cero, este procedimiento da como resultado condicionalmente (dado el número prueba de distribución libre de ceros), y permite utilizar las tablas exactas existentes de valores críticos. Por esta razón, la mayoría de los libros sobre estadísticas no paramétricas incorporan el método de Wilcoxon en su descripción de la prueba "
Christopher Aden,
De acuerdo, esto es en referencia a la prueba de rango firmado de Wilcoxon, pero he escuchado consejos similares utilizados en otros procedimientos de NP. Con respecto al ejemplo de Mann-Whitney, volví y revisé el libro, y estás en lo correcto al estar equivocado. Con Mann-Whitney, el libro recomienda promediar los rangos de los valores empatados, es decir: si los rangos 6 y 7 están empatados, dando a cada uno un valor de 6.5.
Christopher Aden
2
Gracias. Hay formas rigurosas de dar cuenta de los grupos vinculados. Son importantes cuando se trabaja con datos censurados (pero continuos), porque con frecuencia los valores censurados constituyen un gran grupo vinculado. Para las pruebas de suma de rango de Kruskal-Wallis y Wilcoxon, consulte el capítulo 18 de RO Gilbert, * Métodos estadísticos para el monitoreo de la contaminación ambiental. "Las fórmulas que involucran datos vinculados pueden complicarse, pero en algunos casos (como la prueba KW) todo lo que necesita hacer es calcular una tabla ANOVA para los rangos.
whuber

Respuestas:

14

La mayor parte del trabajo en no paramétricos se realizó originalmente suponiendo que había una distribución continua subyacente en la que los lazos serían imposibles (si se midieran con suficiente precisión). La teoría puede entonces basarse en las distribuciones de estadísticas de orden (que son mucho más simples sin vínculos) u otras fórmulas. En algunos casos, la estadística resulta ser aproximadamente normal, lo que hace que las cosas sean realmente fáciles. Cuando se introducen vínculos ya sea porque los datos se redondearon o son naturalmente discretos, entonces los supuestos estándar no se cumplen. La aproximación aún puede ser lo suficientemente buena en algunos casos, pero no en otros, por lo que a menudo lo más fácil es advertir que estas fórmulas no funcionan con lazos.

Existen herramientas para algunas de las pruebas no paramétricas estándar que han determinado la distribución exacta cuando hay vínculos. El paquete exactoRankTests para R es un ejemplo.

Una manera simple de lidiar con los lazos es usar pruebas de aleatorización como pruebas de permutación o bootstrapping. Estos no se preocupan por las distribuciones asintóticas, pero usan los datos tal como están, vínculos y todo (tenga en cuenta que con muchos vínculos, incluso estas técnicas pueden tener poca potencia).

Hubo un artículo hace unos años (pensé en el Estadístico estadounidense, pero no lo encuentro) que discutía las ideas de los vínculos y algunas de las cosas que puede hacer con ellos. Un punto es que depende de qué pregunta se haga, qué hacer con los lazos puede ser muy diferente en una prueba de superioridad frente a una prueba de no inferioridad.

Greg Snow
fuente