Vi este artículo en The Economist sobre un artículo aparentemente devastador [1] que arroja dudas sobre "algo así como 40,000 estudios publicados [fMRI]". El error, dicen, se debe a "supuestos estadísticos erróneos". Leí el documento y veo que en parte es un problema con múltiples correcciones de comparación, pero no soy un experto en fMRI y me resulta difícil seguirlo.
¿Cuáles son los supuestos erróneos de los que hablan los autores ? ¿Por qué se hacen esas suposiciones? ¿Cuáles son las formas de evitar hacer estas suposiciones?
Una parte posterior del cálculo del sobre dice que 40,000 documentos fMRI son más de $ mil millones en fondos (salario de estudiantes graduados, costos operativos, etc.).
[1] Eklund et al., Fracaso del clúster: por qué las inferencias fMRI para extensión espacial han inflado las tasas de falsos positivos, PNAS 2016
fuente
Respuestas:
En la cifra 40000
Las noticias son realmente sensacionalistas, pero el periódico está realmente bien fundado. Las discusiones duraron días en mi laboratorio, en general una crítica realmente necesaria que hace que los investigadores introspecten su trabajo. Recomiendo la lectura del siguiente comentario de Thomas Nichols , uno de los autores de "Fracaso del clúster: por qué las inferencias fMRI por extensión espacial han inflado las tasas de falsos positivos" (perdón por la larga cita).
También incluye esta tabla al final:
Básicamente, SPM (Mapeo Paramétrico Estadístico, una caja de herramientas para Matlab) es la herramienta más utilizada para los estudios de neurociencia fMRI. Si revisa el documento, verá que el uso de un CDT de P = 0.001 (el estándar) para los clústeres en SPM da casi la tasa esperada de error familiar.
Los autores incluso completaron una errata debido a la redacción del artículo:
En el llamado insecto
Algunas noticias también mencionaron un error como la causa de la invalidez de los estudios. De hecho, una de las herramientas de AFNI fue corregir las inferencias , y esto se resolvió después de que la preimpresión se publicara en arXiv .
Inferencia estadística utilizada en neuroimagen funcional
La neuroimagen funcional incluye muchas técnicas que tienen como objetivo medir la actividad neuronal en el cerebro (por ejemplo, fMRI, EEG, MEG, NIRS, PET y SPECT). Estos se basan en diferentes mecanismos de contraste. La resonancia magnética funcional se basa en el contraste dependiente del nivel de oxígeno en sangre (BOLD). En la fMRI basada en tareas, dado un estímulo, las neuronas en el cerebro responsables de la recepción de esa estimulación comienzan a consumir energía y esto desencadena la respuesta hemodinámica cambiando la señal de resonancia magnética ( ) en las proximidades de la micro reclutada -vascularización.≈5%
Usando un modelo lineal generalizado (GLM), identifica qué series temporales de señales de vóxel están correlacionadas con el diseño del paradigma de su experimento (generalmente una serie de tiempo booleana convolucionada con una función de respuesta hemodinámica canónica, pero existen variaciones).
Entonces, este GLM le dio cuánto se asemeja cada serie de tiempo de voxel a la tarea. Ahora, digamos que tiene dos grupos de individuos: pacientes y controles usualmente. La comparación de los puntajes de GLM entre los grupos podría usarse para mostrar cómo la condición de los grupos modula su patrón de "activación" cerebral.
La comparación entre los grupos por vóxel es factible, pero debido a la función de dispersión de puntos inherente al equipo más un paso de preprocesamiento de suavizado, no es razonable esperar que los vóxeles lleven toda la información individualmente. La diferencia en los vóxeles entre los grupos debería, de hecho, extenderse a los vóxeles vecinos.
Por lo tanto, se realiza una comparación por conglomerados , es decir, solo se consideran las diferencias entre los grupos que se forman en conglomerados. Este umbral de extensión de grupo es la técnica de corrección de comparación múltiple más popular en los estudios de resonancia magnética funcional. El problema yace aquí.
En SPM, al menos, debe establecer una tasa de FWE nominal y también un umbral de definición de clúster (CDT). Básicamente, SPM encuentra vóxeles altamente correlacionados con la tarea y, después de establecer un umbral con el CDT, los vecinos se agregan en grupos. Estos tamaños de conglomerados se comparan con la extensión de conglomerado esperada de Random Field Theory (RFT) dado el conjunto FWER [ 1 ].
Los autores han demostrado en [ 1 ] que los tamaños de conglomerados esperados de RFT son realmente pequeños cuando se comparan con los umbrales de extensión de conglomerados obtenidos de las pruebas de permutación aleatorias (RPT).
En su artículo más reciente, los datos de estado de reposo (otra modalidad de fMRI, donde se instruye a los participantes a no pensar en nada en particular) se usaron como si las personas realizaran una tarea durante la adquisición de imágenes, y la comparación grupal se realizó voxel- y cluster -sabio. La tasa de error positivo falso observado (es decir, cuando observa diferencias en la respuesta de la señal a una tarea virtual entre grupos) debe ser razonablemente menor que la tasa de FWE esperada establecida en . Rehacer este análisis millones de veces en grupos de muestras aleatorias con diferentes paradigmas, sin embargo, mostró que las tasas de FWE más observadas son más altas de lo aceptable.α=0.05
@amoeba planteó estas dos preguntas muy pertinentes en los comentarios:
(1) Buena pregunta. De hecho, revisé mis referencias, veamos si puedo aclararlo ahora. La inferencia a nivel de grupo se basa en la extensión de los grupos que se forman después de aplicar un umbral primario (el CDT, que es arbitrario ). En el análisis secundario, se aplica un umbral en el número de vóxeles por grupo . Este umbral se basa en la distribución esperada de extensiones de clúster nulo, que puede estimarse a partir de la teoría (por ejemplo, RFT), y establece un FWER nominal. Una buena referencia es [ 2 ].
(2) Gracias por esta referencia, no la vi antes. Flandin y Friston argumentan que Eklund et al. la inferencia corroborada de RFT porque básicamente mostraron que respetando sus supuestos (con respecto a CDT y suavizado) los resultados son imparciales. Bajo esta luz, los nuevos resultados muestran que diferentes prácticas en la literatura tienden a sesgar la inferencia, ya que desglosa los supuestos de RFT.
En las comparaciones múltiples
También es bien sabido que muchos estudios en neurociencia no corrigen las comparaciones múltiples, las estimaciones oscilan entre el 10% y el 40% de la literatura. Pero estas afirmaciones no se tienen en cuenta, todos saben que estos documentos tienen una validez frágil y posiblemente enormes tasas de falsos positivos.
En el FWER superior al 70%
Los autores también informaron un procedimiento que produce FWER en más del 70%. Este procedimiento "popular" consiste en aplicar el CDT para mantener solo grupos muy significativos y luego aplicar otro umbral de extensión de grupo elegido arbitrariamente (en número de vóxeles). Esto, a veces llamado "inferencia de conjunto", tiene bases estadísticas débiles y posiblemente genera los resultados menos confiables.
Informes anteriores
Los mismos autores ya habían informado sobre problemas con la validez de SPM [ 1 ] en análisis individuales. También hay otros trabajos citados en esta área.
Curiosamente, varios informes sobre análisis a nivel grupal e individual basados en datos simulados concluyeron que el umbral de RFT eran, de hecho, conservadores. Con los recientes avances en potencia de procesamiento, aunque RPT se puede realizar mucho más fácilmente en datos reales, mostrando grandes discrepancias con RFT.
ACTUALIZACIÓN: 18 de octubre de 2017
Un comentario sobre "Cluster Failure" apareció en junio pasado [ 3 ]. Hay Mueller et al. Argumentan que los resultados presentados en Eklund et al podrían deberse a una técnica específica de preprocesamiento de imágenes utilizada en su estudio. Básicamente, volvieron a muestrear las imágenes funcionales a una resolución más alta antes de suavizar (aunque probablemente no sea realizado por todos los investigadores, este es un procedimiento de rutina en la mayoría de los software de análisis de fMRI). También señalan que Flandin y Friston no lo hicieron. De hecho, pude ver a Eklund hablar en el mismo mes en la Reunión Anual de la Organización para el Mapeo del Cerebro Humano (OHBM) en Vancouver, pero no recuerdo ningún comentario sobre este tema, sin embargo, parece crucial para la pregunta.
[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M. y Knutsson, H. (2012). ¿El análisis paramétrico de fMRI con SPM arroja resultados válidos? - Un estudio empírico de 1484 conjuntos de datos de descanso. NeuroImage, 61 (3), 565-578.
[2] Woo, CW, Krishnan, A. y Wager, TD (2014). Umbral basado en la extensión del clúster en análisis fMRI: trampas y recomendaciones. Neuroimage, 91, 412-419.
[3] Mueller, K., Lepsien, J., Möller, HE y Lohmann, G. (2017). Comentario: Fracaso del clúster: por qué las inferencias fMRI para extensión espacial han inflado las tasas de falsos positivos. Frontiers in Human Neuroscience, 11.
fuente