¿Cómo hacer frente al análisis de datos exploratorios y al dragado de datos en estudios de muestras pequeñas?

El análisis de datos exploratorios (EDA) a menudo conduce a explorar otras "pistas" que no necesariamente pertenecen al conjunto inicial de hipótesis. Me enfrento a tal situación en el caso de estudios con un tamaño de muestra limitado y muchos datos recopilados a través de diferentes cuestionarios (datos sociodemográficos, escalas neuropsicológicas o médicas, por ejemplo, funcionamiento mental o físico, nivel de depresión / ansiedad, lista de verificación de síntomas ) Sucede que EDA ayuda a resaltar algunas relaciones inesperadas ("inesperado", lo que significa que no se incluyeron en el plan de análisis inicial) que se traduce en preguntas / hipótesis adicionales.

Como es el caso del sobreajuste, el dragado de datos o la indagación conducen a resultados que no se generalizan. Sin embargo, cuando hay muchos datos disponibles, es bastante difícil (para el investigador o el médico) postular un conjunto limitado de hipótesis.

Me gustaría saber si existen métodos, recomendaciones o reglas generales bien reconocidas que puedan ayudar a delinear EDA en el caso de estudios de muestras pequeñas.

multiple-comparisons epidemiology small-sample eda chl
fuente

No estoy muy seguro de por qué importa el tamaño de su muestra. ¿Puedes ofrecer más razonamientos específicos de por qué crees que es diferente para n pequeña que para n grande?

Andy W

13 < n < 25

$13<n<25$

n

$n$

σ

$\sigma$

Creo que puedo entender ese sentimiento si lo que le interesa es únicamente la clasificación. Creo que, por inferencia causal, los problemas con la indagación de datos son los mismos (es decir, los problemas no se resuelven con un mayor poder para identificar relaciones). Trataré de formular esta opinión en una respuesta. Mientras tanto, puedo hacer una pregunta en el foro principal sobre el uso de la validación cruzada para la inferencia causal, ya que no he encontrado ningún trabajo en mi campo que haga esto.

Andy W

@Andy Gracias. Con suerte, su pregunta recibirá muchas respuestas interesantes.

chl

Respuestas:

Creo que lo principal es ser honesto al informar sobre tales resultados que fueron hallazgos inesperados de EDA y que no forman parte del plan de análisis inicial basado en una hipótesis a priori . A algunas personas les gusta etiquetar estos resultados como 'generación de hipótesis': por ejemplo, el primer resultado de una búsqueda de esta frase en Google Scholar incluye lo siguiente en la sección de conclusión de su resumen:

Como este fue un análisis "exploratorio", este efecto debe considerarse como generador de hipótesis y evaluado prospectivamente en otros ensayos ...

Sin embargo, tenga en cuenta que, aunque este fue un análisis de subgrupos post-hoc, fue de un ensayo de control aleatorio, no de un estudio observacional, en el que el problema empeora. Philip Cole despreció la idea de que los estudios observacionales ('epidemiológicos') pueden generar hipótesis en un comentario deliberadamente provocativo pero entretenido:

P Cole. La máquina generadora de hipótesis. Epidemiology 1993; 4 : 271-273.

una parada
fuente

+1 Gracias por el enlace (y el retag). Voy a mirar en esta dirección.

chl

Acabo de dejar algunas referencias sobre dragado de datos y estudios clínicos para el lector interesado. Esto tiene la intención de extender la buena respuesta de @onestop . Traté de evitar los artículos centrados solo en comparaciones múltiples o problemas de diseño, aunque los estudios con múltiples puntos finales continúan presentando discusiones desafiantes y controvertidas (mucho después de las afirmaciones de Rothman sobre ajustes inútiles , Epidemiología 1990, 1: 43-46; o vea la revisión de Feise en BMC Metodología de la Investigación Médica 2002, 2: 8).

Tengo entendido que, aunque hablé sobre el análisis exploratorio de datos , mi pregunta generalmente aborda el uso de la minería de datos, con sus posibles dificultades, en paralelo a las pruebas basadas en hipótesis.

Koh, HC y Tan, G (2005). Aplicaciones de minería de datos en salud . Journal of Healthcare Information Management , 19 (2), 64-72.
Ioannidis, JPA (2005). Por qué la mayoría de los resultados de investigación publicados son falsos . PLoS Medicine , 2 (8), e124.
Anderson, DR, Link, WA, Johnson, DH y Burnham, KP (2001). Sugerencias para presentar los resultados del análisis de datos . The Journal of Wildlife Management , 65 (3), 373-378. - Esto se hace eco del comentario de @ onestop sobre el hecho de que tenemos que reconocer la exploración / modelado basado en datos más allá del conjunto inicial de hipótesis
Michels, KB y Rosner, BA (1996). Arrastre de datos: pescar o no pescar . Lancet , 348, 1152-1153.
Lord, SJ, Gebski, VJ y Keech, AC (2004). Análisis múltiples en ensayos clínicos: ¿ciencia sólida o dragado de datos?. The Medical Journal of Australia , 181 (8), 452-454.
Smith, GD y Ebrahim, S (2002). Dragado de datos, sesgo o confusión . BMJ , 325, 1437-1438.
Afshartous, D y Wolf, M (2007). Evitar la 'indagación de datos' en modelos multinivel y de efectos mixtos . Diario de la sociedad estadística real A , 170 (4), 1035–1059
Anderson, DR, Burnham, KP, Gould, WR y Cherry, S (2001). Preocupaciones por encontrar efectos que en realidad son espurios . Boletín de la sociedad Widlife , 29 (1), 311-316.

chl
fuente

Esto es solo un resumen de lo que leí hasta ahora. Obviamente, no aceptaré mi propia respuesta . Cualquier otro pensamiento sería muy apreciado.

chl

Gracias por aceptar mi respuesta chi, aunque su propia lista de referencias es mucho mejor y más reciente. Realmente debería haber pensado en un par de ellos a mí mismo como yo los tengo en mi disco duro, e incluso puede haber leído partes de ellos ...

onestop