Tengo algunos datos que no necesariamente puedo suponer que provienen de distribuciones normales, y me gustaría realizar pruebas de equivalencia entre grupos. Para datos normales, existen técnicas como TOST (dos pruebas t unilaterales). ¿Hay algo análogo a TOST para datos no normales?
hypothesis-testing
equivalence
tost
Ryan C. Thompson
fuente
fuente
Respuestas:
La lógica de TOST empleada para las estadísticas de prueba de tipo t y z de Wald (es decir,θ/sθ y θ/σθ , respectivamente) se puede aplicar a las aproximaciones z para pruebas no paramétricas como las pruebas de signo, rango de signo y suma de rango. Por simplicidad, supongo que la equivalencia se expresa simétricamente con un solo término, pero extender mi respuesta a términos de equivalencia asimétrica es sencillo.
Un problema que surge al hacer esto es que si uno está acostumbrado a expresar el término de equivalencia (digamos,Δ ) en las mismas unidades que θ , entonces el término de equivalencia debe expresarse en unidades del signo particular, rango con signo o rango suma estadística, que es tanto abstruso, y dependiente de N .
Sin embargo, también se pueden expresar términos de equivalencia TOST en unidades del estadístico de prueba en sí. Considere eso en TOST, siz=θ/σθ , entonces z1= ( Δ - θ ) / σθ , y z2= ( θ + Δ ) / σθ . Si dejamos ε = Δ / σθ , entonces z1= ε - z , y z2= z+ ε . (Las estadísticas expresadas aquí se evalúan en lacoladerecha:pag1= P ( Z> z1) ypag2= P ( Z> z2) .) El uso de unidades de ladistribuciónzpara definir el umbral de equivalencia / relevancia puede sería preferible para las pruebas no paramétricas, ya que la alternativa define el umbral en unidades de rangos con signo o sumas de rango, lo que puede ser sustancialmente sin sentido para los investigadores y difícil de interpretar.
Si reconocemos que (para intervalos de equivalencia simétrica) no es posible rechazar ninguna hipótesis nula de TOST cuandoε ≤ z1 - α , entonces podemos proceder a tomar decisiones sobre el tamaño apropiado del término de equivalencia en consecuencia. Por ejemplo ε = z1 - α+ 0.5 .
Este enfoque se ha implementado con opciones para la corrección de continuidad, etc. en el paquete tost para Stata (que ahora incluye implementaciones TOST específicas para las pruebas Shapiro-Wilk y Shapiro-Francia), a las que puede acceder escribiendo Stata:Editar: Por qué la lógica de TOST es sólida, y las formaciones de prueba de equivalencia se han aplicado a las pruebas ómnibus, me han convencido de que mi solución se basó en un profundo malentendido de las estadísticas aproximadas para las pruebas de Shapiro-Wilk y Shapiro-Francia
fuente
No es un TOST per se, pero la prueba de Komolgorov-Smirnov le permite a uno evaluar la importancia de la diferencia entre una distribución de muestra y una segunda distribución de referencia que puede especificar. Puede usar esta prueba para descartar un tipo específico de distribución diferente, pero no diferentes distribuciones en general (al menos, no sin controlar la inflación de error en las pruebas de todas las alternativas posibles ... si eso es posible de alguna manera). La hipótesis alternativa para cualquier prueba seguirá siendo la hipótesis menos específica "general", como de costumbre.
Si puede conformarse con una prueba de diferencias de distribución entre dos grupos donde la hipótesis nula es que los dos grupos están distribuidos de manera equivalente, puede usar la prueba de Komolgorov-Smirnov para comparar la distribución de un grupo con la de otro grupo. Ese es probablemente el enfoque convencional: ignorar las diferencias si no son estadísticamente significativas y justificar esta decisión con una estadística de prueba.
En cualquier caso, es posible que desee considerar algunos problemas más profundos que surgen del enfoque de "todo o nada" para rechazar una hipótesis nula. Uno de estos temas es muy popular aquí en Cross Validated: " ¿Las pruebas de normalidad son 'esencialmente inútiles'? " A la gente le gusta responder a las preguntas de prueba de normalidad con una pregunta: "¿Por qué quieres probar esto?" Supongo que la intención es, en general, invalidar el motivo de la prueba, que en última instancia puede conducir en la dirección correcta. La esencia de las respuestas útiles a la pregunta que he vinculado aquí parece ser la siguiente:
Si aún desea realizar una prueba de equivalencia, aquí hay otra discusión popular sobre Cross Validated que involucra pruebas de equivalencia.
fuente
fail to
/ dicotómico forzadoreject
está bien establecido, la mayoría de las muestras no pueden descartar por completo la posibilidad de que el nulo sea verdadero. Casi siempre hay alguna posibilidad de error de falso rechazo si uno insiste en el rechazo, lo que generalmente no es literalmente necesario. Ese fue probablemente el punto más importante que pretendía plantear originalmente. Espero que ahora sea un poco más claro sin las cosas eliminadasda
Por otro lado si tomamos:
Da:
Al igual que con NHST, hay cuestiones sutiles de poder y tasas de error falso positivo que deben explorarse con simulación antes de llegar a conclusiones definitivas.
Creo que un método similar (quizás un método más general) está utilizando estadísticas bayesianas para comparar la estimación posterior según cualquiera de los modelos de probabilidad.
fuente