Prueba de hipótesis secuenciales en ciencias básicas

16

Soy farmacólogo y, en mi experiencia, casi todos los trabajos de investigación biomédica básica utilizan la prueba t de Student (ya sea para respaldar la inferencia o para cumplir con las expectativas ...). Hace un par de años, me llamó la atención que la prueba t de Student no es la prueba más eficiente que podría usarse: las pruebas secuenciales ofrecen mucha más potencia para cualquier tamaño de muestra, o un tamaño de muestra mucho menor en promedio para una potencia equivalente.

Los procedimientos secuenciales de diversa complejidad se utilizan en la investigación clínica, pero nunca he visto uno utilizado en una publicación de investigación biomédica básica. Observo que también están ausentes de los libros de texto de estadísticas de nivel introductorio que son todo lo que la mayoría de los científicos básicos probablemente verán.

Mi pregunta es triple:

  1. Dada la ventaja de eficiencia muy sustancial de las pruebas secuenciales, ¿por qué no se usan más ampliamente?
  2. ¿Existe un inconveniente asociado con el uso de métodos secuenciales que significaría que su uso por parte de los no estadísticos debe ser desalentado?
  3. ¿Se les enseña a los estudiantes de estadística sobre los procedimientos de pruebas secuenciales?
Michael Lew - reinstalar a Mónica
fuente
33
Solo para estar seguro, ¿está hablando de ST como se encuentra en ensayos clínicos, por ejemplo, en.wikipedia.org/wiki/Sequential_analysis ?
chl
Si. Existen bastantes variantes de pruebas secuenciales, incluidas las pruebas t secuenciales, pero ninguna se usa en la investigación básica. No veo ningún impedimento para su uso.
Michael Lew - reinstalar a Mónica el
(+1) Me topé con las pruebas secuenciales y me hice las mismas preguntas.
steffen

Respuestas:

5

No conozco muchas pruebas secuenciales y su aplicación fuera del análisis intermedio (Jennison y Turnbull, 2000) y las pruebas adaptativas computarizadas (van der Linden y Glas, 2010). Una excepción se encuentra en algunos estudios de resonancia magnética funcional que están asociados a grandes costos y dificultades para inscribir sujetos. Básicamente, en este caso, las pruebas secuenciales apuntan principalmente a detener el experimento antes. Por lo tanto, no me sorprende que estos enfoques muy personalizados no se enseñen en las clases estadísticas habituales.

Sin embargo, las pruebas secuenciales no están exentas de dificultades (los errores de tipo I y II deben especificarse de antemano, la elección de la regla de detención y la observación múltiple de los resultados deben estar justificados, los valores de p no se distribuyen uniformemente bajo el valor nulo como en un valor fijo diseño de muestra, etc.). En la mayoría de los diseños, trabajamos con un entorno experimental previamente especificado o se realizó un estudio preliminar de potencia, para optimizar algún tipo de criterio de costo-efectividad, en cuyo caso se aplican los procedimientos de prueba estándar.

Sin embargo, encontré que el siguiente artículo de Maik Dierkes sobre diseño de muestra fijo versus abierto es muy interesante: un reclamo de diseños secuenciales de experimentos .

chl
fuente
Los investigadores biomédicos básicos hacen análisis provisionales todo el tiempo, ¡simplemente no los declaran porque ni siquiera saben que es importante! He encuestado a investigadores en un congreso nacional y descubrí que más del 50% no sabía que el control de las tasas de error de la prueba t de Student depende de un tamaño de muestra fijo predeterminado. Puede ver evidencia de eso en los tamaños de muestra que a veces varían de forma errática.
Michael Lew - reinstalar a Mónica el
Algunas de las desventajas que surgen de las complejidades de los diseños secuenciales vienen específicamente en el diseño de los análisis más que en su implementación. Quizás podríamos tener un conjunto de diseños predefinidos para pequeños experimentos básicos de muestra.
Michael Lew - reinstalar a Mónica el
@Michael Acerca de los análisis intermedios "falsos" (observando los valores p mientras el estudio aún está en una etapa de evolución): parece que es un uso incorrecto de las estadísticas, nada más.
chl
@Chi En un nivel, sí, los análisis provisionales no declarados y no corregidos son inapropiados (pero se hace en la ignorancia, una ignorancia que creo señala puntos inadecuados en los métodos de enseñar estadísticas a los investigadores biomédicos básicos ...). Sin embargo, si lo consideramos a un nivel meta, entonces es posible encontrar algunas justificaciones parciales. Muchos experimentos involucran muestras tan pequeñas que un aumento en la tasa de errores falsos positivos puede ser una compensación razonable por más potencia. La Convención excluye un nivel declarado de alfa superior a 0.05.
Michael Lew - reinstalar a Mónica el
Observo en este contexto que los investigadores biomédicos básicos no trabajan en un enfoque exclusivamente de Neyman-Pearson, incluso si las afirmaciones de que "los resultados donde P <0.05 se consideraron significativos" podrían sugerir lo contrario. Si nos mantenemos dentro de los límites de las pruebas de significación de Fisher en las que se pueden incorporar otras consideraciones además del valor P alcanzado en las decisiones sobre cómo lidiar con los resultados de la prueba, quizás los análisis intermedios podrían no ser tan malos. Sin embargo, es cierto que una prueba secuencial diseñada sería superior a una no diseñada.
Michael Lew - reinstalar a Mónica el