¿Cómo probar la hipótesis de que no hay diferencias grupales?

39

Imagine que tiene un estudio con dos grupos (p. Ej., Hombres y mujeres) que analiza una variable dependiente numérica (p. Ej., Puntajes de las pruebas de inteligencia) y tiene la hipótesis de que no hay diferencias grupales.

Pregunta:

¿Cuál es una buena manera de probar si no hay diferencias grupales?
¿Cómo determinaría el tamaño de muestra necesario para analizar adecuadamente las diferencias de grupo?

Pensamientos iniciales

No sería suficiente hacer una prueba t estándar porque no rechazar la hipótesis nula no significa que el parámetro de interés sea igual o cercano a cero; Este es particularmente el caso con muestras pequeñas.
Podría mirar el intervalo de confianza del 95% y verificar que todos los valores estén dentro de un rango suficientemente pequeño; quizás más o menos 0.3 desviaciones estándar.

hypothesis-testing t-test equivalence tost Jeromy Anglim
fuente

¿Qué quiere decir con "esto supone que la hipótesis nula es cierta"?

robin girard

Si desea poder controlar la probabilidad de declarar erróneamente "hay una diferencia", debe separar las dos hipótesis (¿ya mencioné que me encanta esta cita: stats.stackexchange.com/questions/726/… ;))

robin girard

@Robin, el valor p de una prueba de significación de hipótesis nula es la probabilidad de ver datos más o más extremos que los observados, suponiendo que la hipótesis nula sea verdadera; pero tal vez podría redactar mejor la declaración anterior.

Jeromy Anglim

@Robin Modifiqué la pregunta para tratar de aclarar mi punto

Jeromy Anglim

20

Creo que está preguntando acerca de las pruebas de equivalencia . Esencialmente, debe decidir qué tan grande es aceptable una diferencia para que usted todavía pueda concluir que los dos grupos son efectivamente equivalentes. Esa decisión define los límites del intervalo de confianza del 95% (u otro), y los cálculos del tamaño de la muestra se realizan sobre esta base.

Hay un libro completo sobre el tema.

Un "equivalente" clínico muy común de las pruebas de equivalencia es una prueba / ensayo de no inferioridad . En este caso, "prefiere" un grupo sobre el otro (un tratamiento establecido) y diseña su prueba para mostrar que el nuevo tratamiento no es inferior al tratamiento establecido en algún nivel de evidencia estadística.

Creo que necesito acreditar a Harvey Motulsky por el sitio GraphPad.com (en "Biblioteca" ).

Tilacoleo
fuente

16

Además de la posibilidad ya mencionada de algún tipo de prueba de equivalencia , de las cuales la mayoría de ellas, según mi leal saber y entender, se enrutan principalmente en la buena tradición frecuentista, existe la posibilidad de realizar pruebas que realmente proporcionan una cuantificación de la evidencia en favor de una nula-hiposis, a saber, pruebas bayesianas .

Aquí se puede encontrar una implementación de una prueba t bayesiana: Wetzels, R., Raaijmakers, JGW, Jakab, E. y Wagenmakers, E.-J. (2009) Cómo cuantificar el apoyo a favor y en contra de la hipótesis nula: una implementación flexible de WinBUGS de una prueba t bayesiana predeterminada. Psychonomic Bulletin & Review, 16, 752-760.

También hay un tutorial sobre cómo hacer todo esto en R:

http://www.ruudwetzels.com/index.php?src=SDtest

Kruschke proporciona en este documento una alternativa (quizás un enfoque más moderno) de una prueba t bayesiana (con código):

Kruschke, JK (2013). La estimación bayesiana reemplaza la prueba t . Revista de psicología experimental: general , 142 (2), 573-603. doi: 10.1037 / a0029146

Todos los accesorios para esta respuesta (antes de la adición de Kruschke) deben ir a mi colega David Kellen. Robé su respuesta a esta pregunta .

Henrik
fuente

Me preguntaba si alguien proporcionaría un enfoque bayesiano. Excelente. Gracias.

Jeromy Anglim

1

Puede valer la pena actualizar esta respuesta para incluir una referencia al increíble paquete BayesFactor para R.

crsh

13

Siguiendo la respuesta de Thylacoleo, investigué un poco.

El paquete de equivalencia en R tiene la tost()función.

Ver Robinson y Frose (2004) " Validación del modelo usando pruebas de equivalencia " para más información.

Jeromy Anglim
fuente

Gracias por el enlace y el puntero al equivalencepaquete.

chl

8

Conozco algunos documentos que podrían serle útiles:

Tryon, WW (2001). Evaluación de diferencia estadística, equivalencia e indeterminación utilizando intervalos de confianza inferenciales: un método alternativo integrado para realizar pruebas estadísticas de hipótesis nulas. Métodos psicológicos, 6, 371-386. ( PDF GRATUITO )

Y una corrección:
Tryon, WW y Lewis, C. (2008). Un método de intervalo de confianza inferencial para establecer la equivalencia estadística que corrige el factor de reducción de Tryon (2001). Métodos psicológicos, 13, 272-278. ( PDF GRATUITO )

Además:

Seaman, MA y Serlin, RC (1998). E intervalos de confianza de quivalencia para comparaciones de medias de dos grupos . Métodos psicológicos, Vol. 3 (4), 403-411.

Henrik
fuente

Hay toneladas de documentos e incluso libros sobre este tema.

Michael R. Chernick

7

Recientemente he pensado en una forma alternativa de "prueba de equivalencia" basada en una distancia entre las dos distribuciones en lugar de entre sus medios.

Existen algunos métodos que proporcionan intervalos de confianza para la superposición de dos distribuciones gaussianas: ingrese la descripción de la imagen aquí

$O(P_1,P_2)$ $P_1$ $P_2$

1 - O ({PAGS}_{1}, {PAGS}_{2}) = T V ({PAGS}_{1}, {PAGS}_{2})

$1-O(P_1,P_2)= TV(P_1,P_2)$

T V (P_{1}, P_{2}) = sup_{A} | P_{1} (A) - P_{2} (A) |

$TV(P_1,P_2) = \sup_A \big|P_1(A) - P_2(A) \big|$

P_{1}

$P_1$

P_{2}

$P_2$

$O(P_1,P_2)>0.9$ $P_1$ $P_2$ $0.1$ $10\%$

$\mu_1$ $\mu_2$

$|\mu_1 - \mu_2|$ $TV(P_1,P_2)$

$\frac{|\mu_1-\mu_2|}{\sigma}$

Stéphane Laurent
fuente

¿Tiene algún recursos que muestran la superposición que se utilizan en algunos problemas reales? Esto suena increíblemente prometedor, pero no está claro para mí cómo se aplicaría en un problema real (donde sus conclusiones son potencialmente varios pasos eliminados de "esta distribución es bastante similar a X", por lo que es un poco difícil ver cómo eso 10% de TV se traduce en el tamaño del impacto en las inferencias).

Stumpy Joe Pete

1

@StumpyJoePete He escrito algo con el mismo espíritu en mi blog: stla.github.io/stlapblog/posts/…

Stéphane Laurent

5

En las ciencias médicas, es preferible utilizar un enfoque de intervalo de confianza en lugar de dos pruebas unilaterales (tost). También recomiendo graficar las estimaciones puntuales, los IC y los márgenes de equivalencia determinados a priori para dejar las cosas muy claras.

Su pregunta probablemente se abordaría con tal enfoque.

Las guías CONSORT para estudios de no inferioridad / equivalencia son bastante útiles a este respecto.

Ver Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ y CONSORT Group. Informe de ensayos aleatorios de no inferioridad y equivalencia: una extensión de la declaración CONSORT. JAMA 2006, 8 de marzo; 295 (10): 1152-60. (Enlace al texto completo).

pmgjones
fuente

1

No diría necesariamente que se prefieren los intervalos de confianza. De hecho, los intervalos de confianza corresponden a pruebas de hipótesis. El TOST se puede lograr observando los intervalos de confianza obtenidos al intersecar los dos intervalos de confianza unilaterales que corresponden a las dos pruebas t unilaterales que se utilizan en el procedimiento.

Michael R. Chernick

4

Sí. Esta es la prueba de equivalencia. Básicamente, invierte la hipótesis nula y alternativa y basa el tamaño de la muestra en la potencia para mostrar que la diferencia de las medias está dentro de la ventana de equivalencia. Blackwelder lo llamó "Prueba de la hipótesis nula". Esto se hace comúnmente en ensayos clínicos farmacéuticos donde se prueba la equivalencia de un medicamento genérico con el medicamento comercializado o se compara un medicamento aprobado con una nueva formulación (a menudo llamada bioequivalencia). La versión unilateral se llama no inferioridad. Algunas veces se puede aprobar un medicamento simplemente demostrando que el nuevo medicamento no es inferior al competidor comercializado. Shao y Pigeot han desarrollado un enfoque de arranque consistente para la bioequivalencia utilizando diseños cruzados.

Michael R. Chernick
fuente

0

Diferencias de arranque (por ejemplo, la diferencia entre las medias) entre los 2 grupos de muestra y verificar la significación estadística. Una descripción más detallada de este enfoque, aunque en un contexto diferente, se puede encontrar aquí http://www.automated-trading-system.com/a-different-application-of-the-bootstrap/

lector de babelproof
fuente

1

Está combinando la falacia de aceptar la hipótesis nula de no diferencia y encontrar evidencia de que dos cantidades son equivalentes .

Alexis

¿Cómo probar la hipótesis de que no hay diferencias grupales?

Respuestas: