El análisis de datos exploratorios (EDA) a menudo conduce a explorar otras "pistas" que no necesariamente pertenecen al conjunto inicial de hipótesis. Me enfrento a tal situación en el caso de estudios con un tamaño de muestra limitado y muchos datos recopilados a través de diferentes cuestionarios (datos sociodemográficos, escalas neuropsicológicas o médicas, por ejemplo, funcionamiento mental o físico, nivel de depresión / ansiedad, lista de verificación de síntomas ) Sucede que EDA ayuda a resaltar algunas relaciones inesperadas ("inesperado", lo que significa que no se incluyeron en el plan de análisis inicial) que se traduce en preguntas / hipótesis adicionales.
Como es el caso del sobreajuste, el dragado de datos o la indagación conducen a resultados que no se generalizan. Sin embargo, cuando hay muchos datos disponibles, es bastante difícil (para el investigador o el médico) postular un conjunto limitado de hipótesis.
Me gustaría saber si existen métodos, recomendaciones o reglas generales bien reconocidas que puedan ayudar a delinear EDA en el caso de estudios de muestras pequeñas.
Respuestas:
Creo que lo principal es ser honesto al informar sobre tales resultados que fueron hallazgos inesperados de EDA y que no forman parte del plan de análisis inicial basado en una hipótesis a priori . A algunas personas les gusta etiquetar estos resultados como 'generación de hipótesis': por ejemplo, el primer resultado de una búsqueda de esta frase en Google Scholar incluye lo siguiente en la sección de conclusión de su resumen:
Como este fue un análisis "exploratorio", este efecto debe considerarse como generador de hipótesis y evaluado prospectivamente en otros ensayos ...
Sin embargo, tenga en cuenta que, aunque este fue un análisis de subgrupos post-hoc, fue de un ensayo de control aleatorio, no de un estudio observacional, en el que el problema empeora. Philip Cole despreció la idea de que los estudios observacionales ('epidemiológicos') pueden generar hipótesis en un comentario deliberadamente provocativo pero entretenido:
P Cole. La máquina generadora de hipótesis. Epidemiology 1993; 4 : 271-273.
fuente
Acabo de dejar algunas referencias sobre dragado de datos y estudios clínicos para el lector interesado. Esto tiene la intención de extender la buena respuesta de @onestop . Traté de evitar los artículos centrados solo en comparaciones múltiples o problemas de diseño, aunque los estudios con múltiples puntos finales continúan presentando discusiones desafiantes y controvertidas (mucho después de las afirmaciones de Rothman sobre ajustes inútiles , Epidemiología 1990, 1: 43-46; o vea la revisión de Feise en BMC Metodología de la Investigación Médica 2002, 2: 8).
Tengo entendido que, aunque hablé sobre el análisis exploratorio de datos , mi pregunta generalmente aborda el uso de la minería de datos, con sus posibles dificultades, en paralelo a las pruebas basadas en hipótesis.
fuente