¿Pruebas de equivalencia para datos no normales?

9

Tengo algunos datos que no necesariamente puedo suponer que provienen de distribuciones normales, y me gustaría realizar pruebas de equivalencia entre grupos. Para datos normales, existen técnicas como TOST (dos pruebas t unilaterales). ¿Hay algo análogo a TOST para datos no normales?

Ryan C. Thompson
fuente
1
No estoy familiarizado con TOST, pero ¿estás buscando a Mann-Whitney? Esta es una prueba no paramétrica (en el sentido de que no se hacen suposiciones sobre las distribuciones) que pueden proporcionar evidencia de que dos grupos provienen de distribuciones diferentes.
Nick Sabbe
1
Estoy buscando una prueba donde la hipótesis nula es que hay una diferencia, y la hipótesis alternativa es que no hay (casi) ninguna diferencia.
Ryan C. Thompson
Para muestras pequeñas, puede echar un vistazo a las respuestas en stats.stackexchange.com/questions/49782/… . Para muestras más grandes, el enfoque clásico con pruebas t está bien gracias al Teorema del límite central.
Michael M
3
Nada en la frase "Dos pruebas unilaterales", ni la lógica subyacente implica la teoría normal. Debería ser perfectamente posible adaptarlo a una alternativa de cambio de ubicación con una distribución no normal. Pero tenga cuidado: en muchos casos con datos no normales, lo que realmente desea es un tipo de prueba de equivalencia de cambio de escala , y con otros tipos de datos, algo más. Saber lo que se necesita realmente depende de lo que esté midiendo y del problema que esté resolviendo. En lugar de tratar de apretar la clavija en un agujero redondo, vale la pena examinar la clavija.
Glen_b: reinstala a Mónica el

Respuestas:

8

La lógica de TOST empleada para las estadísticas de prueba de tipo t y z de Wald (es decir, θ/ /sθ y θ/ /σθ , respectivamente) se puede aplicar a las aproximaciones z para pruebas no paramétricas como las pruebas de signo, rango de signo y suma de rango. Por simplicidad, supongo que la equivalencia se expresa simétricamente con un solo término, pero extender mi respuesta a términos de equivalencia asimétrica es sencillo.

Un problema que surge al hacer esto es que si uno está acostumbrado a expresar el término de equivalencia (digamos, Δ ) en las mismas unidades que θ , entonces el término de equivalencia debe expresarse en unidades del signo particular, rango con signo o rango suma estadística, que es tanto abstruso, y dependiente de N .

Sin embargo, también se pueden expresar términos de equivalencia TOST en unidades del estadístico de prueba en sí. Considere eso en TOST, si z=θ/ /σθ , entonces z1=(Δ-θ)/ /σθ , y z2=(θ+Δ)/ /σθ . Si dejamos ε=Δ/ /σθ , entonces z1=ε-z , y z2=z+ε . (Las estadísticas expresadas aquí se evalúan en lacoladerecha:pag1=PAG(Z>z1) ypag2=PAG(Z>z2) .) El uso de unidades de ladistribuciónzpara definir el umbral de equivalencia / relevancia puede sería preferible para las pruebas no paramétricas, ya que la alternativa define el umbral en unidades de rangos con signo o sumas de rango, lo que puede ser sustancialmente sin sentido para los investigadores y difícil de interpretar.

Si reconocemos que (para intervalos de equivalencia simétrica) no es posible rechazar ninguna hipótesis nula de TOST cuando εz1-α , entonces podemos proceder a tomar decisiones sobre el tamaño apropiado del término de equivalencia en consecuencia. Por ejemplo ε=z1-α+0,5 .

Este enfoque se ha implementado con opciones para la corrección de continuidad, etc. en el paquete tost para Stata (que ahora incluye implementaciones TOST específicas para las pruebas Shapiro-Wilk y Shapiro-Francia), a las que puede acceder escribiendo Stata:

Editar: Por qué la lógica de TOST es sólida, y las formaciones de prueba de equivalencia se han aplicado a las pruebas ómnibus, me han convencido de que mi solución se basó en un profundo malentendido de las estadísticas aproximadas para las pruebas de Shapiro-Wilk y Shapiro-Francia

Alexis
fuente
3

No es un TOST per se, pero la prueba de Komolgorov-Smirnov le permite a uno evaluar la importancia de la diferencia entre una distribución de muestra y una segunda distribución de referencia que puede especificar. Puede usar esta prueba para descartar un tipo específico de distribución diferente, pero no diferentes distribuciones en general (al menos, no sin controlar la inflación de error en las pruebas de todas las alternativas posibles ... si eso es posible de alguna manera). La hipótesis alternativa para cualquier prueba seguirá siendo la hipótesis menos específica "general", como de costumbre.

Si puede conformarse con una prueba de diferencias de distribución entre dos grupos donde la hipótesis nula es que los dos grupos están distribuidos de manera equivalente, puede usar la prueba de Komolgorov-Smirnov para comparar la distribución de un grupo con la de otro grupo. Ese es probablemente el enfoque convencional: ignorar las diferencias si no son estadísticamente significativas y justificar esta decisión con una estadística de prueba.

En cualquier caso, es posible que desee considerar algunos problemas más profundos que surgen del enfoque de "todo o nada" para rechazar una hipótesis nula. Uno de estos temas es muy popular aquí en Cross Validated: " ¿Las pruebas de normalidad son 'esencialmente inútiles'? " A la gente le gusta responder a las preguntas de prueba de normalidad con una pregunta: "¿Por qué quieres probar esto?" Supongo que la intención es, en general, invalidar el motivo de la prueba, que en última instancia puede conducir en la dirección correcta. La esencia de las respuestas útiles a la pregunta que he vinculado aquí parece ser la siguiente:

  1. Si le preocupan las violaciones de los supuestos de la prueba paramétrica, debería encontrar una prueba no paramétrica que no haga supuestos de distribución. No pruebe si necesita usar la prueba no paramétrica; solo úsalo!
  2. Debería reemplazar la pregunta "¿Es mi distribución significativamente no normal?" con, "¿Qué tan no normal es mi distribución, y cómo es probable que esto afecte mis análisis de interés?" Por ejemplo, las pruebas con respecto a la tendencia central (especialmente los medios involucrados) pueden ser más sensibles a la asimetría que a la curtosis, y viceversa para las pruebas con respecto a la (co) varianza. Sin embargo, existen alternativas sólidas para la mayoría de los propósitos analíticos que no son muy sensibles a ningún tipo de no normalidad.

Si aún desea realizar una prueba de equivalencia, aquí hay otra discusión popular sobre Cross Validated que involucra pruebas de equivalencia.

Nick Stauner
fuente
1
0 0-:El |θ-θ0 0El |Δ01-:θ-θ0 0Δ01-:θ-θ0 0-Δ01-02--Δ<θ-θ0 0<Δ[-Δ,Δ]
Lo suficientemente justo; Probablemente fui un poco engañoso. He eliminado las partes a las que pareces objetar. Sin embargo, creo que has redactado tu comentario con demasiada fuerza. A pesar del hecho de que el enfoque fail to/ dicotómico forzado rejectestá bien establecido, la mayoría de las muestras no pueden descartar por completo la posibilidad de que el nulo sea verdadero. Casi siempre hay alguna posibilidad de error de falso rechazo si uno insiste en el rechazo, lo que generalmente no es literalmente necesario. Ese fue probablemente el punto más importante que pretendía plantear originalmente. Espero que ahora sea un poco más claro sin las cosas eliminadas
Nick Stauner
2
Bueno, en mi opinión, la fuerza de las pruebas de equivalencia (por ejemplo, H0 0-0 0+0 0+0 0-0 0+0 0-Δ0 0+0 0-0 0+0 0-
Por supuesto, los problemas de sensibilidad y especificidad, PPV y NPV no desaparecen.
Alexis
-1

H0 0:FXFyH1:FX=FyH0 0FXnorte(0 0,1)F^XF^yX=YFyFX

H0 0H1

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

da

> mean(p)
[1] 0.034

pag

Por otro lado si tomamos:

set.seed(123)
p <- replicate(1000, { ## generate data under the null
  x <- rnorm(100)
  g <- sample(0:1, 100, replace=T)
  x <- x + 0.4*g
  BIC(lm(x~1)) > BIC(lm(x~g))
})
mean(p)

Da:

> mean(p)
[1] 0.437

Al igual que con NHST, hay cuestiones sutiles de poder y tasas de error falso positivo que deben explorarse con simulación antes de llegar a conclusiones definitivas.

Creo que un método similar (quizás un método más general) está utilizando estadísticas bayesianas para comparar la estimación posterior según cualquiera de los modelos de probabilidad.

AdamO
fuente
2
AdamO parece que estás combinando "prueba de igualdad" con "prueba de equivalencia". Hay una literatura antigua y sólida en los métodos y la aplicación de este último.
Alexis
1
Ver, por ejemplo, Wellek, S. (2010). Prueba de hipótesis estadísticas de equivalencia y no inferioridad . Chapman and Hall / CRC Press, segunda edición.
Alexis
@Alexis hmm, desafortunadamente no tenemos acceso a una biblioteca. ¿Está diciendo que la equivalencia es lo mismo que la no inferioridad en la medida en que las estimaciones dentro de un margen se consideran equivalentes?
AdamO
1
No del todo: la no inferioridad es una prueba unilateral de si un nuevo tratamiento no funciona peor que algún estándar menos una diferencia relevante más pequeña que se especifica a priori . Las pruebas de equivalencia son pruebas de la hipótesis nula de que dos (o más) cantidades son diferentes, en cualquier dirección, en más de una diferencia relevante más pequeña especificada a priori . Algunos documentos seminales:
Alexis