Mi texto no paramétrico , Estadísticas prácticas no paramétricas , a menudo da fórmulas limpias para expectativas, variaciones, estadísticas de prueba y similares, pero incluye la advertencia de que esto solo funciona si ignoramos los lazos. Al calcular la estadística U de Mann-Whitney, se recomienda tirar pares empatados al comparar cuál es más grande.
Entiendo que los lazos realmente no nos dicen mucho sobre qué población es más grande (si eso es lo que nos interesa) ya que ninguno de los grupos es más grande que el otro, pero no parece que eso importe al desarrollar distribuciones asintóticas.
¿Por qué entonces se trata de un dilema con los lazos en algunos procedimientos no paramétricos? ¿Hay alguna forma de extraer información útil de los lazos, en lugar de simplemente tirarlos?
EDITAR: En lo que respecta al comentario de @ whuber, revisé mis fuentes nuevamente, y algunos procedimientos usan un promedio de rangos en lugar de eliminar los valores vinculados por completo. Si bien esto parece más sensato en referencia a la retención de información, también me parece que carece de rigor. Sin embargo, el espíritu de la pregunta sigue en pie.
fuente
Respuestas:
La mayor parte del trabajo en no paramétricos se realizó originalmente suponiendo que había una distribución continua subyacente en la que los lazos serían imposibles (si se midieran con suficiente precisión). La teoría puede entonces basarse en las distribuciones de estadísticas de orden (que son mucho más simples sin vínculos) u otras fórmulas. En algunos casos, la estadística resulta ser aproximadamente normal, lo que hace que las cosas sean realmente fáciles. Cuando se introducen vínculos ya sea porque los datos se redondearon o son naturalmente discretos, entonces los supuestos estándar no se cumplen. La aproximación aún puede ser lo suficientemente buena en algunos casos, pero no en otros, por lo que a menudo lo más fácil es advertir que estas fórmulas no funcionan con lazos.
Existen herramientas para algunas de las pruebas no paramétricas estándar que han determinado la distribución exacta cuando hay vínculos. El paquete exactoRankTests para R es un ejemplo.
Una manera simple de lidiar con los lazos es usar pruebas de aleatorización como pruebas de permutación o bootstrapping. Estos no se preocupan por las distribuciones asintóticas, pero usan los datos tal como están, vínculos y todo (tenga en cuenta que con muchos vínculos, incluso estas técnicas pueden tener poca potencia).
Hubo un artículo hace unos años (pensé en el Estadístico estadounidense, pero no lo encuentro) que discutía las ideas de los vínculos y algunas de las cosas que puede hacer con ellos. Un punto es que depende de qué pregunta se haga, qué hacer con los lazos puede ser muy diferente en una prueba de superioridad frente a una prueba de no inferioridad.
fuente