Errores en el diseño experimental: evitar experimentos muertos

27

Me he encontrado con esta cita en numerosas ocasiones:

Consultar al estadístico después de terminar un experimento es a menudo simplemente pedirle que realice un examen post mortem. Quizás pueda decir de qué murió el experimento. - Ronald Fisher (1938)

Para mí, parece quizás un poco presuntuoso. Los únicos ejemplos que he encontrado que describen cómo mueren los experimentos sin un buen diseño son la falta de controles o los controles deficientes. Por ejemplo, los experimentos que controlan la aplicación de un fertilizante, pero no controlan el entorno requerido para la aplicación. Tal vez solo soy yo, pero parece que una lectura rápida de la sección de Wikipedia sobre los principios de diseño de Fisher cubriría la mayoría de las bases.

Como estadístico, ¿con qué frecuencia ve el diseño de problemas relacionados con los experimentos con datos? ¿Están siempre relacionados con esos pocos factores mencionados por Fisher, o hay otras dificultades serias que los científicos no estadísticamente capacitados deberían tener en cuenta?

nada101
fuente
44
Con qué frecuencia: muy a menudo. Por lo general, llamar al experimento "muerto" es ir demasiado lejos, pero muchos experimentos que veo podrían haber sido mucho mejores con solo pequeños cambios en el diseño.
mark999
3
He visto algunos. Si bien puede ser presuntuoso ahora , recuerde que cuando Fisher lo dijo, no podía simplemente buscar wikipedia. La tasa puede haber sido mucho más alta en los primeros días.
Glen_b -Reinstale a Mónica el
44
Es bueno que plantees este punto. También tengo curiosidad por saber cuál puede ser la primera vez que veo un calificador cuádruple: "Para mí, parece un poco presuntuoso". :-)
rolando2
1
@ rolando2: Je, bueno, es Fisher. Él ganó todos esos calificativos: D
naught101
55
He visto, literalmente, muchos miles de conjuntos de datos en mi carrera (y prácticamente ninguno de ellos se recopiló de acuerdo con un diseño revisado por ningún estadístico). La mayoría de ellos fueron recolectados con fines formales, como el cumplimiento de los requisitos reglamentarios. No puedo recordar uno que no tuviera algunos problemas relacionados con el diseño (aunque a veces estos fueron menores). Esto no quiere decir que los conjuntos de datos eran inútiles o "muertos": pero en casi todos los casos mi tarea era (continuar con la analogía médica) primero resucitar el conjunto de datos y luego aplicarlo a su propósito previsto, si es posible.
whuber

Respuestas:

14

Creo que lo que Fisher quiso decir en su famosa cita va más allá de decir "Haremos un diseño factorial completo para nuestro estudio" u otro enfoque de diseño. Consultar a un estadístico cuando planifica el experimento significa pensar en cada aspecto del problema de manera inteligente, incluido el objetivo de la investigación, qué variables son relevantes, cómo recopilarlas, gestión de datos, dificultades, evaluación intermedia de cómo va el experimento y mucho Más. A menudo, creo que es importante ver todos los aspectos del experimento propuesto a mano para comprender realmente dónde residen las dificultades.

Mi experiencia es principalmente de aplicaciones médicas. Algunos de los problemas que he encontrado que podrían haberse evitado consultando previamente a un estadístico:

  • Tamaño de muestra insuficiente es, por supuesto, el número uno en esta lista. A menudo, los datos de estudios anteriores habrían estado disponibles y habría sido fácil dar una estimación razonable del tamaño de muestra necesario. En estos casos, el único recurso a menudo es hacer un análisis puramente descriptivo de los datos y prometer más investigación en el documento (no publicar generalmente no es una opción después de que los médicos inviertan un tiempo valioso).
  • La ejecución de los experimentos se deja a la conveniencia y al azar en lugar del diseño. Un ejemplo en el que estoy trabajando actualmente es la recolección de mediciones a lo largo del tiempo. Los tiempos de medición, la frecuencia de medición y el final del período de monitoreo varían enormemente entre los individuos. Aumentar el número de mediciones por individuo y fijar las fechas de medición y el final del período de monitoreo habría sido bastante poco trabajo adicional (en este caso) y habría sido muy beneficioso para el estudio.
  • Mal control de los factores molestos que podrían haberse controlado fácilmente. Por ejemplo, las mediciones se realizaron a veces el día de la recolección de la muestra y, a veces, más tarde, dejando la posibilidad de que la muestra se haya degradado.
  • Mala gestión de datos, incluido mi favorito personal "Redondeé los datos antes de ponerlos en la computadora, porque la máquina no es precisa en sus mediciones". A menudo, los datos relevantes simplemente no se recopilan y es imposible obtenerlos después del hecho.

A menudo, los problemas con un estudio se remontan aún más atrás, a la concepción inicial de la investigación:

  • A veces, los datos se recopilan sin un objetivo claro y solo suponiendo que serán útiles de alguna manera. Producir hipótesis y "resultados significativos" se deja al estadístico.
  • Y lo contrario: los datos se juntan con el objetivo de probar un punto específico que el PI tiene en su cabeza, independientemente de los datos y de lo que realmente se puede probar con ellos. Esta vez, se supone que el estadístico debe poner su sello de importancia en las conclusiones preescritas sin que las conclusiones se ajusten a la vista de los datos.

Hasta ahora, esto suena principalmente a que el estadístico sufre y tal vez la integridad científica sufre cuando el IP intenta sacar conclusiones no respaldadas por los datos (siempre es una discusión divertida). Pero el equipo experimental también sufre, porque hacen un trabajo adicional innecesario (mientras no hacen el trabajo necesario) durante la fase experimental y necesitan pasar mucho más tiempo discutiendo con su estadista después del hecho, porque no recibieron su consejo antes. Y, por supuesto, el documento final será peor, tendrá menos conclusiones (y más "conjeturas") y probablemente no llegará a esa revista de alto impacto que quería el IP.

Rob Hall
fuente
Con respecto al segundo de su segundo conjunto de viñetas, creo que la lógica normal de un estudio es recopilar datos con el objetivo de probar puntos específicos.
Robert Jones
1
Tienes, por supuesto, toda la razón. Yo era un poco demasiado bajo allí. Lo que quise mencionar fue un escenario en el que un IP que está muy decidido a probar un punto y datos de baja calidad que no pueden probar ese punto (a menudo debido a problemas de diseño fundamentales) se unen.
Rob Hall
12

Dos palabras: Tamaño de muestra ... Un análisis de potencia es imprescindible. Al incluir un estadístico competente en su equipo desde el primer momento, es probable que se ahorre mucha frustración cuando escriba los resultados y las secciones de discusión de su manuscrito o informe.

Es muy común que un investigador principal recopile datos antes de consultar con un estadístico con la expectativa de un "modelo predictivo" o una "relación causal" de una muestra de menos de 30 sujetos. Si el IP hubiera consultado a un estadístico antes de recopilar datos, el estadístico habría podido informar al IP, después de los análisis apropiados, para recopilar más datos / temas o reestructurar los objetivos de su plan / proyecto de análisis.

Matt Reichenbach
fuente
1
No estoy de acuerdo con "Un análisis de poder es imprescindible". Creo que mucha gente exagera la importancia del análisis de poder.
mark999
3
@ mark999: Podría ser, pero no niega la importancia de realizar algún tipo de análisis de poder antes de hacer el experimento, que entiendo que es el punto de Matt.
Scortchi - Restablece a Monica
3
@ mark999: Pueden resultar útiles, por supuesto. Pero, ¿en qué circunstancias no recomendaría realizar ningún tipo de análisis de potencia (incluyo estimar el ancho esperado de los intervalos de confianza) antes de hacer un experimento? Solo puedo pensar en (1) un estudio piloto, en el que solo está interesado en ejecutar el protocolo y estimar aproximadamente el error, y (2) un experimento para el que no puede elegir un tamaño de muestra por alguna razón, haciendo Análisis de potencia redundante.
Scortchi - Restablece a Monica
2
@ mark999: Creo que sí. Para su caso (B), sugeriría un estudio piloto -> análisis de potencia -> experimento para probar hipótesis o estimar los tamaños del efecto como un plan irreprochable.
Scortchi - Restablece a Monica
3
Incluso si tiene un tamaño de muestra fijo, no veo ninguna razón para enterrar la cabeza en la arena y evitar un análisis de poder (dejando de lado las respuestas razonables a las limitaciones de recursos y la ignorancia).
Andy W
11

Supongo que depende de cuán estrictamente interpretes la palabra "diseño". A veces se considera que significa bloques completamente aleatorios versus bloques aleatorios, etc. No creo haber visto un estudio que haya muerto por eso. Además, como otros han mencionado, sospecho que "muerto" es demasiado fuerte, pero depende de cómo interprete el término. Ciertamente, he visto estudios que eran "no significativos" (y que los investigadores posteriormente no trataron de publicar); bajo el supuesto de que estos estudios podrían haber sido 'significativos' si se realizaran de manera diferente (de acuerdo con los consejos obvios que hubiera dado) y, por lo tanto, publicados, podrían calificar como "muertos". A la luz de esta concepción, el problema de poder planteado por @RobHall y @MattReichenbach es bastante sencillo, pero hay más en el poder que el tamaño de la muestra, y estos podrían caer en una concepción más flexible del "diseño". Aquí hay un par de ejemplos:

  • Sin recopilar / registrar / ni tirar información
    , trabajé en un estudio en el que los investigadores estaban interesados ​​en saber si un rasgo en particular estaba relacionado con un cáncer. Obtuvieron ratones de dos líneas (es decir, líneas genéticas, los ratones fueron criados para ciertas propiedades) donde se esperaba que una línea tuviera más del rasgo que la otra. Sin embargo, el rasgo en cuestión no se midió realmente, aunque podría haberlo sido. Esta situación es análoga a dicotomizar o agrupar una variable continua, lo que reduce la potencia. Sin embargo, incluso si los resultados fueran 'significativos', serían menos informativos que si supiéramos la magnitud del rasgo para cada ratón.

    Otro caso dentro de este mismo encabezado es no pensar y recopilar covariables obvias.

  • Diseño deficiente del cuestionario
    Recientemente trabajé en un estudio donde se administró una encuesta de satisfacción del paciente en dos condiciones. Sin embargo, ninguno de los ítems se puntuó en reversa. Parecía que la mayoría de los pacientes simplemente bajaban la lista y marcaban los 5 ( muy de acuerdo ), posiblemente sin siquiera leer los ítems. Hubo otros problemas, pero esto es bastante obvio. Curiosamente, la persona a cargo de llevar a cabo el estudio me dijo que su asistencia la había alentado explícitamente a no examinar primero el estudio con un estadístico, a pesar de que somos libres y convenientemente disponibles para dicha consulta.

gung - Restablece a Monica
fuente
Whoa ... con el primero, lo que hizo que miden? eso parece un poco, um, obvio. ¿O se les aseguró de antemano que los rasgos eran diferentes en las diferentes líneas? El segundo ejemplo es genial, un tipo de aleatorización en el que la mayoría de la gente no pensaría.
naught101
55
Solo estaba probando 1 cepa frente a la otra. El rasgo en cuestión realmente tiende a ser más alto para una de las líneas, pero hay cierta superposición: las distribuciones no están totalmente separadas.
gung - Restablece a Monica
Tuve una experiencia similar al punto 1: se configuró un dispositivo microfluídico para reconocer cierto tipo de célula. Se inyectó una mezcla de células para ser reconocidas y células de control y se adquirió un flujo de video + flujo de señal para ser utilizado para el reconocimiento. Desafortunadamente, aunque la transmisión de video podría usarse como referencia para determinar si había una celda en el detector en un momento dado, no había forma de saber de qué tipo era realmente la celda, así que no había forma de determinar si una señal era verdaderamente positiva o falso negativo o ninguna señal era verdadero negativo o falso positivo ...
cbeleites apoya a Monica el
8

He visto este tipo de problema en experimentos psicológicos y de encuestas.

En un caso, todo el experimento tuvo que atribuirse a una experiencia de aprendizaje. Hubo problemas en múltiples niveles que dieron como resultado una mezcla de resultados, pero resultados que parecían dar cierto respaldo a la hipótesis. Al final, pude ayudar a planificar un experimento más riguroso, que esencialmente tenía el poder suficiente para rechazar la hipótesis.

En el otro caso, me entregaron una encuesta que ya había sido diseñada y ejecutada, y hubo múltiples problemas que resultaron en varias áreas de interés afectadas. En un área clave, por ejemplo, preguntaron cuántas veces se rechazó a los clientes de un evento debido a que estaba lleno cuando llegaron. El problema es que no hay un intervalo de tiempo en la pregunta, por lo que no puede distinguir la diferencia entre alguien que intentó asistir 4 veces y fue rechazado 4 veces y alguien que intentó asistir 40 veces y solo fue rechazado 4 veces .

No soy un experto en estadística de capital, pero si hubieran acudido a mí de antemano, habría podido ayudarlos a solucionar estos problemas y obtener mejores resultados. En el primer caso, todavía habría sido decepcionante: "Lo siento, su hipótesis parece extremadamente improbable", pero podría haberles ahorrado un segundo experimento. En el segundo caso, les habría dado respuestas a algunas preguntas importantes y habría hecho que los resultados fueran más precisos. (Otro problema que tuvieron es que encuestaron varias ubicaciones a lo largo del tiempo y al menos algunas personas fueron encuestadas varias veces, sin ninguna pregunta como "¿Has respondido esta encuesta en otro lugar?")

Tal vez no sean problemas estadísticos per se, pero en ambos casos, expertos en dominios inteligentes y bien educados crearon instrumentos que eran defectuosos, y los resultados fueron un experimento muerto y un experimento con miembros amputados.

Wayne
fuente