Me he encontrado con esta cita en numerosas ocasiones:
Consultar al estadístico después de terminar un experimento es a menudo simplemente pedirle que realice un examen post mortem. Quizás pueda decir de qué murió el experimento. - Ronald Fisher (1938)
Para mí, parece quizás un poco presuntuoso. Los únicos ejemplos que he encontrado que describen cómo mueren los experimentos sin un buen diseño son la falta de controles o los controles deficientes. Por ejemplo, los experimentos que controlan la aplicación de un fertilizante, pero no controlan el entorno requerido para la aplicación. Tal vez solo soy yo, pero parece que una lectura rápida de la sección de Wikipedia sobre los principios de diseño de Fisher cubriría la mayoría de las bases.
Como estadístico, ¿con qué frecuencia ve el diseño de problemas relacionados con los experimentos con datos? ¿Están siempre relacionados con esos pocos factores mencionados por Fisher, o hay otras dificultades serias que los científicos no estadísticamente capacitados deberían tener en cuenta?
fuente
Respuestas:
Creo que lo que Fisher quiso decir en su famosa cita va más allá de decir "Haremos un diseño factorial completo para nuestro estudio" u otro enfoque de diseño. Consultar a un estadístico cuando planifica el experimento significa pensar en cada aspecto del problema de manera inteligente, incluido el objetivo de la investigación, qué variables son relevantes, cómo recopilarlas, gestión de datos, dificultades, evaluación intermedia de cómo va el experimento y mucho Más. A menudo, creo que es importante ver todos los aspectos del experimento propuesto a mano para comprender realmente dónde residen las dificultades.
Mi experiencia es principalmente de aplicaciones médicas. Algunos de los problemas que he encontrado que podrían haberse evitado consultando previamente a un estadístico:
A menudo, los problemas con un estudio se remontan aún más atrás, a la concepción inicial de la investigación:
Hasta ahora, esto suena principalmente a que el estadístico sufre y tal vez la integridad científica sufre cuando el IP intenta sacar conclusiones no respaldadas por los datos (siempre es una discusión divertida). Pero el equipo experimental también sufre, porque hacen un trabajo adicional innecesario (mientras no hacen el trabajo necesario) durante la fase experimental y necesitan pasar mucho más tiempo discutiendo con su estadista después del hecho, porque no recibieron su consejo antes. Y, por supuesto, el documento final será peor, tendrá menos conclusiones (y más "conjeturas") y probablemente no llegará a esa revista de alto impacto que quería el IP.
fuente
Dos palabras: Tamaño de muestra ... Un análisis de potencia es imprescindible. Al incluir un estadístico competente en su equipo desde el primer momento, es probable que se ahorre mucha frustración cuando escriba los resultados y las secciones de discusión de su manuscrito o informe.
Es muy común que un investigador principal recopile datos antes de consultar con un estadístico con la expectativa de un "modelo predictivo" o una "relación causal" de una muestra de menos de 30 sujetos. Si el IP hubiera consultado a un estadístico antes de recopilar datos, el estadístico habría podido informar al IP, después de los análisis apropiados, para recopilar más datos / temas o reestructurar los objetivos de su plan / proyecto de análisis.
fuente
Supongo que depende de cuán estrictamente interpretes la palabra "diseño". A veces se considera que significa bloques completamente aleatorios versus bloques aleatorios, etc. No creo haber visto un estudio que haya muerto por eso. Además, como otros han mencionado, sospecho que "muerto" es demasiado fuerte, pero depende de cómo interprete el término. Ciertamente, he visto estudios que eran "no significativos" (y que los investigadores posteriormente no trataron de publicar); bajo el supuesto de que estos estudios podrían haber sido 'significativos' si se realizaran de manera diferente (de acuerdo con los consejos obvios que hubiera dado) y, por lo tanto, publicados, podrían calificar como "muertos". A la luz de esta concepción, el problema de poder planteado por @RobHall y @MattReichenbach es bastante sencillo, pero hay más en el poder que el tamaño de la muestra, y estos podrían caer en una concepción más flexible del "diseño". Aquí hay un par de ejemplos:
Sin recopilar / registrar / ni tirar información
, trabajé en un estudio en el que los investigadores estaban interesados en saber si un rasgo en particular estaba relacionado con un cáncer. Obtuvieron ratones de dos líneas (es decir, líneas genéticas, los ratones fueron criados para ciertas propiedades) donde se esperaba que una línea tuviera más del rasgo que la otra. Sin embargo, el rasgo en cuestión no se midió realmente, aunque podría haberlo sido. Esta situación es análoga a dicotomizar o agrupar una variable continua, lo que reduce la potencia. Sin embargo, incluso si los resultados fueran 'significativos', serían menos informativos que si supiéramos la magnitud del rasgo para cada ratón.
Otro caso dentro de este mismo encabezado es no pensar y recopilar covariables obvias.
Diseño deficiente del cuestionario
Recientemente trabajé en un estudio donde se administró una encuesta de satisfacción del paciente en dos condiciones. Sin embargo, ninguno de los ítems se puntuó en reversa. Parecía que la mayoría de los pacientes simplemente bajaban la lista y marcaban los 5 ( muy de acuerdo ), posiblemente sin siquiera leer los ítems. Hubo otros problemas, pero esto es bastante obvio. Curiosamente, la persona a cargo de llevar a cabo el estudio me dijo que su asistencia la había alentado explícitamente a no examinar primero el estudio con un estadístico, a pesar de que somos libres y convenientemente disponibles para dicha consulta.
fuente
He visto este tipo de problema en experimentos psicológicos y de encuestas.
En un caso, todo el experimento tuvo que atribuirse a una experiencia de aprendizaje. Hubo problemas en múltiples niveles que dieron como resultado una mezcla de resultados, pero resultados que parecían dar cierto respaldo a la hipótesis. Al final, pude ayudar a planificar un experimento más riguroso, que esencialmente tenía el poder suficiente para rechazar la hipótesis.
En el otro caso, me entregaron una encuesta que ya había sido diseñada y ejecutada, y hubo múltiples problemas que resultaron en varias áreas de interés afectadas. En un área clave, por ejemplo, preguntaron cuántas veces se rechazó a los clientes de un evento debido a que estaba lleno cuando llegaron. El problema es que no hay un intervalo de tiempo en la pregunta, por lo que no puede distinguir la diferencia entre alguien que intentó asistir 4 veces y fue rechazado 4 veces y alguien que intentó asistir 40 veces y solo fue rechazado 4 veces .
No soy un experto en estadística de capital, pero si hubieran acudido a mí de antemano, habría podido ayudarlos a solucionar estos problemas y obtener mejores resultados. En el primer caso, todavía habría sido decepcionante: "Lo siento, su hipótesis parece extremadamente improbable", pero podría haberles ahorrado un segundo experimento. En el segundo caso, les habría dado respuestas a algunas preguntas importantes y habría hecho que los resultados fueran más precisos. (Otro problema que tuvieron es que encuestaron varias ubicaciones a lo largo del tiempo y al menos algunas personas fueron encuestadas varias veces, sin ninguna pregunta como "¿Has respondido esta encuesta en otro lugar?")
Tal vez no sean problemas estadísticos per se, pero en ambos casos, expertos en dominios inteligentes y bien educados crearon instrumentos que eran defectuosos, y los resultados fueron un experimento muerto y un experimento con miembros amputados.
fuente