Muchas veces me he encontrado con advertencias informales contra "espionaje de datos" (aquí hay un ejemplo divertido ), y creo que tengo una idea intuitiva de lo que eso significa, y por qué puede ser un problema.
Por otro lado, el "análisis exploratorio de datos" parece ser un procedimiento perfectamente respetable en estadística, al menos a juzgar por el hecho de que un libro con ese título todavía se cita con reverencia como un clásico.
En mi línea de trabajo, a menudo me encuentro con lo que me parece un "espionaje de datos" desenfrenado, o tal vez sería mejor describirlo como " tortura de datos ", aunque quienes lo hacen parecen ver la misma actividad como una exploración completamente razonable y sin problemas. ".
Este es el escenario típico: el experimento costoso se lleva a cabo (sin pensar mucho en el análisis posterior), los investigadores originales no pueden discernir fácilmente una "historia" en los datos recopilados, alguien es llevado a aplicar alguna "magia estadística", y quién , después cortar y cortar los datos en todas las direcciones, finalmente logra extraer alguna "historia" publicable.
Por supuesto, generalmente hay algo de "validación" en el informe / documento final para mostrar que el análisis estadístico está en alza, pero la evidente actitud de publicación a toda costa detrás de todo me deja dudoso.
Desafortunadamente, mi comprensión limitada de lo que se debe hacer y lo que no se debe hacer con el análisis de datos me impide ir más allá de dudas tan vagas, por lo que mi respuesta conservadora es básicamente ignorar tales hallazgos.
Mi esperanza es que no solo una mejor comprensión de la distinción entre exploración y espionaje / tortura, sino también, y lo que es más importante, una mejor comprensión de los principios y técnicas para detectar cuando se haya cruzado esa línea, me permita evaluar tales hallazgos en una manera que puede explicar razonablemente un procedimiento analítico menos que óptimo, y así poder ir más allá de mi respuesta actual, bastante simple, de incredulidad general.
EDITAR: Gracias a todos por los comentarios y respuestas muy interesantes. A juzgar por su contenido, creo que no he explicado mi pregunta lo suficientemente bien. Espero que esta actualización aclare las cosas.
Mi pregunta aquí no se refiere tanto a lo que debo hacer para evitar torturar mis datos (aunque esta es una pregunta que también me interesa), sino más bien: ¿cómo debo considerar (o evaluar) los resultados que sé que se han llegado a través de tal "tortura de datos".
La situación se vuelve más interesante en aquellos casos (mucho más raros) en los que, además, estoy en condiciones de expresar una opinión sobre tales "hallazgos" antes de enviarlos para su publicación.
En este punto, lo máximo que puedo hacer es decir algo como "No sé cuánta credibilidad puedo dar a estos hallazgos, dado lo que sé sobre los supuestos y los procedimientos que se utilizaron para obtenerlos". Esto es demasiado vago para que valga la pena decirlo. Querer ir más allá de tanta imprecisión fue la motivación de mi publicación.
Para ser justos, mis dudas aquí se basan en métodos estadísticos más que aparentemente cuestionables. De hecho, veo esto último más como consecuencia del problema más profundo: una combinación de una actitud arrogante hacia el diseño experimental junto con un compromiso categórico de publicar los resultados tal como están (es decir, sin más experimentos). Por supuesto, los proyectos de seguimiento siempre se prevén, pero es simplemente fuera de cuestión que no saldrá ni un solo documento de, por ejemplo, "un refrigerador lleno de 100,000 muestras".
Las estadísticas entran en escena solo como un medio para cumplir este objetivo supremo. La única justificación para aferrarse a las estadísticas (secundarias como lo son en todo el escenario) es que un desafío frontal a la suposición de "publicación a toda costa" simplemente no tiene sentido.
De hecho, solo puedo pensar en una respuesta efectiva en tales situaciones: proponer alguna prueba estadística (que no requiera experimentación adicional) que realmente pruebe la calidad del análisis. Pero simplemente no tengo las estadísticas para ello. Mi esperanza (ingenua en retrospectiva) era descubrir qué podía estudiar que me permitiera llegar a tales pruebas ...
Mientras escribo esto, me doy cuenta de que, si aún no existe, el mundo podría usar una nueva sub-rama de estadísticas, dedicada a técnicas para detectar y exponer la "tortura de datos". (Por supuesto, no me refiero a dejarme llevar por la metáfora de la "tortura": el problema no es la "tortura de datos" per se, sino los "hallazgos" espurios a los que puede conducir).
Respuestas:
Hay una distinción que a veces no recibe suficiente atención, a saber, la generación de hipótesis frente a las pruebas de hipótesis , o el análisis exploratorio frente a las pruebas de hipótesis. Se le permite a todos los trucos sucios del mundo presentar su idea / hipótesis. Pero cuando más tarde lo pruebes, debes matar sin piedad a tus seres queridos.
Soy un biólogo que trabaja con datos de alto rendimiento todo el tiempo, y sí, hago este "corte y corte" con bastante frecuencia. La mayoría de los casos que el experimento realizó no fue diseñado cuidadosamente; o tal vez aquellos que lo planearon no tuvieron en cuenta todos los resultados posibles. O la actitud general cuando se planificaba era "veamos qué hay allí". Terminamos con conjuntos de datos caros, valiosos y en sí mismos interesantes que luego giro y vuelvo para elaborar una historia.
Pero entonces, es solo una historia (posible hora de acostarse). Después de haber seleccionado un par de ángulos interesantes, y este es el punto crucial, debe probarlo no solo con conjuntos de datos independientes o muestras independientes, sino preferiblemente con un enfoque independiente , un sistema experimental independiente.
La importancia de esta última cosa, una configuración experimental independiente, no solo un conjunto independiente de mediciones o muestras, a menudo se subestima. Sin embargo, cuando probamos 30,000 variables para detectar diferencias significativas, a menudo sucede que si bien muestras similares (pero diferentes) de la misma cohorte y analizadas con el mismo método no rechazarán la hipótesis que basamos en el conjunto anterior. Pero luego pasamos a otro tipo de experimento y a otra cohorte, y nuestros hallazgos resultan ser el resultado de un sesgo metodológico o tienen una aplicabilidad limitada.
Es por eso que a menudo necesitamos varios documentos de varios investigadores independientes para aceptar realmente una hipótesis o un modelo.
Así que creo que esa tortura de datos está bien, siempre y cuando tenga en cuenta esta distinción y recuerde lo que está haciendo, en qué etapa del proceso científico se encuentra. Puede usar fases lunares o redefinir 2 + 2 siempre que tenga una validación independiente de los datos. Para ponerlo en una foto:
Desafortunadamente, hay quienes ordenan un microarray para redondear un artículo después de que se hayan realizado varios experimentos y no haya surgido ninguna historia, con la esperanza de que el análisis de alto rendimiento muestre algo. O están confundidos acerca de la prueba de hipótesis completa frente a la generación.
fuente
Herman Friedman, mi profesor favorito en la escuela de posgrado, solía decir que
Evitar estrictamente cualquier cosa excepto la prueba más rigurosa de hipótesis definidas a priori limita severamente su capacidad de sorprenderse.
Creo que la clave es que somos honestos sobre lo que estamos haciendo. Si estamos en un modo altamente exploratorio, deberíamos decirlo. En el extremo opuesto, un profesor que conozco le dijo a su estudiante que cambiara sus hipótesis ya que no se encontró que las originales fueran significativas.
fuente
Permítanme agregar algunos puntos:
En primer lugar, la generación de hipótesis es una parte importante de la ciencia. Y se pueden publicar resultados no predictivos (exploratorios / descriptivos) .
En mi humilde opinión, el problema no es en sí mismo que la exploración de datos se utilice en un conjunto de datos y solo se publiquen partes de esos hallazgos. Los problemas son
El desarrollo de la ciencia y el método son procesos iterativos de una manera mucho más general que la simple generación de hipótesis: pruebas, generación de nuevas hipótesis, pruebas ... En mi humilde opinión, es una cuestión de juicio profesional qué tipo de conducta adecuada es necesaria en qué etapa (ver ejemplo abajo).
Lo que hago:
Cuando tengo una oportunidad, también les muestro a las personas la diferencia que eso hace (factible principalmente con un nivel más bajo del mismo problema, por ejemplo, comparar datos validados independientemente del paciente con el rendimiento interno estimaciones de rutinas de optimización de hiperparámetros, como la búsqueda de cuadrícula de parámetros SVM, "modelos combinados" como PCA-LDA, etc. No es realmente factible para el dragado de datos reales, porque hasta ahora, nadie me dio el dinero para ganar una verdadera réplica de un estudio de tamaño razonable ...)
manuscrito aceptado en arXiv: 1211.1323
Aquí hay un estudio que encuentra que este intento ciego también es inútil, por ejemplo,
J. Engel, J. Gerretzen, E. Szymańska, JJ Jansen, G. Downey, L. Blanchet, LMC Buydens: ¿Rompiendo con las tendencias en el preprocesamiento? Tendencias TrAC en Química Analítica, 2013, 50, 96-106. DOI: 10.1016 / j.trac.2013.04.015
(probaron una gran cantidad de combinaciones de pasos de preprocesamiento y descubrieron que muy pocos conducen a mejores modelos que ningún preprocesamiento)
Enfatice que no estoy torturando mis datos más de lo necesario:
ejemplo :
Se lee un documento de seguimiento que utiliza los mismos datos como ejemplo para el desarrollo de teorías (diferentes)
Porque mientras tanto, un editor de la revista CILS me pidió explícitamente (en una conferencia) que comparara los modelos con el preprocesamiento de PLS.
Tome un punto de vista práctico: por ejemplo, en el estudio de astrocitoma vinculado anteriormente, por supuesto, todavía decidí algunos puntos después de mirar los datos (como qué umbral de intensidad corresponde a las mediciones tomadas desde fuera de la muestra, que luego se descartaron). Otras decisiones que sé que no son críticas (línea de base lineal versus cuadrática: mi experiencia con ese tipo de datos sugiere que esto realmente no cambia mucho, lo que también está en perfecto acuerdo con lo que Jasper Engel encontró en diferentes datos de tipo similar, por lo que No esperaría un gran sesgo al decidir el tipo de línea de base al observar los datos (el documento da un argumento de por qué eso es razonable).
Según el estudio que hicimos, ahora podemos decir qué se debe abordar a continuación y qué se debe cambiar. Y debido a que todavía estamos en un paso comparativamente temprano del desarrollo del método (mirando muestras ex vivo ), no vale la pena pasar por todos los "deberes" que finalmente serán necesarios antes de que el método pueda usarse in vivo . Por ejemplo, en la etapa actual de la clasificación del astrocitoma, la validación de muestreo es una opción más sensata que el conjunto de pruebas externas. Todavía enfatizo que se necesitará un estudio de validación verdaderamente externo en algún momento, porque algunas características de rendimiento solo se pueden medir de esa manera (por ejemplo, los efectos de la deriva / prueba del instrumento que podemos corregir para estos). Pero en este momento mientras todavía estamos jugando con ex-vivomuestras y están resolviendo otras partes del gran problema (en los documentos vinculados: cómo lidiar con los casos límite), la ganancia en conocimiento útil de un estudio de validación ex vivo adecuado es demasiado baja para que valga la pena el esfuerzo (en mi humilde opinión: a menos que que se hicieron para medir el sesgo debido al dragado de datos).
Una vez leí un argumento acerca de los estándares estadísticos y de informes, y si debería decidirse que es necesario para una revista (no recuerdo cuál) que me convenció: la idea expresada allí era que no es necesario que los editores intenten acordar y aplicar algún estándar (lo que causará mucha discusión inútil) porque:
fuente
A veces, las cosas que ves como "tortura de datos" no son realmente. No siempre está claro de antemano exactamente qué va a hacer con los datos para dar lo que cree que son los resultados genuinos del experimento hasta que lo vea.
Por ejemplo, con los datos del tiempo de reacción para una tarea de decisión, a menudo desea rechazar los tiempos que no se refieren a la decisión (es decir, cuando van tan rápido que obviamente solo están adivinando y no tomando una decisión). Puede trazar la precisión de la decisión contra RT para ver dónde generalmente se producen las conjeturas. Pero hasta que haya probado ese paradigma en particular, no tiene forma de saber dónde están los límites (en el tiempo, no la precisión). Para algunos observadores, tal procedimiento parece torturar los datos, pero siempre que no tenga nada que ver directamente con las pruebas de hipótesis (no lo está ajustando en función de las pruebas), no está torturando los datos.
La indagación de datos durante un experimento está bien siempre que se haga de la manera correcta. Probablemente no sea ético pegar su experimento en una caja negra y solo hacer el análisis cuando se haya ejecutado el número planificado de sujetos. A veces es difícil decir que hay problemas con el experimento hasta que revise los datos y debería ver algunos tan pronto como sea posible. El análisis de datos se desprecia mucho porque se compara con ver si p <0.05 y decidir continuar. Pero hay muchos criterios por los cuales puede decidir continuar recolectando que no hacen nada dañino para sus tasas de error.
Supongamos que quiere asegurarse de que su estimación de varianza esté dentro de un rango probable conocido. Las muestras pequeñas pueden tener estimaciones de varianza bastante lejanas, por lo que debe recopilar datos adicionales hasta que sepa que la muestra es más representativa. En la siguiente simulación, espero que la varianza en cada condición sea 1. Voy a hacer algo realmente loco y tomar muestras de cada grupo de forma independiente para 10 muestras y luego agregar sujetos hasta que la varianza sea cercana a 1.
Entonces, acabo de volverme loco con el muestreo y haciendo que mis variaciones sean cercanas a lo esperado y todavía no afecto mucho al alfa (está un poco por debajo de 0.05). Algunas restricciones más, como las N, deben ser iguales en cada grupo y no pueden ser más de 30, y el alfa es más o menos correcto en 0.05. ¿Pero qué hay de SE? ¿Qué sucede si en cambio trato de hacer que el SE sea un valor dado? Esa es realmente una idea realmente interesante porque a su vez estoy configurando el ancho de CI por adelantado (pero no la ubicación).
Una vez más, alpha cambió una pequeña cantidad a pesar de que he permitido que las N recorran hasta 46 de las 10 originales en función de la indagación de datos. Más importante aún, los SE se encuentran en un rango estrecho en cada uno de los experimentos. Es fácil hacer un pequeño ajuste alfa para solucionarlo si es una preocupación. El punto es que algunas indagaciones de datos hacen poco o ningún daño e incluso pueden traer beneficios.
(Por cierto, lo que estoy mostrando no es una bala mágica. En realidad, no se reduce el número de sujetos a largo plazo haciendo esto porque la potencia para la simulación de N variada es casi la misma que para una simulación de N promedio )
Nada de lo anterior contradice la literatura reciente sobre agregar sujetos después de que comenzó un experimento. En esos estudios, observaron simulaciones en las que agregó sujetos después de hacer una prueba de hipótesis para reducir el valor p. Eso sigue siendo malo y puede inflar extraordinariamente alfa. Además, me gustan mucho las respuestas de enero y Peter Flom. Solo quería señalar que mirar los datos mientras los está recolectando, e incluso cambiar un N planeado mientras se recolecta, no son necesariamente cosas malas.
fuente
p
regla de detención basada. Todas las críticas de modificar N son sobre hacerlo después de una prueba de hipótesis (también debería haber otras cosas incluidas). Existe el potencial de que esto cause tentación ... pero lo estoy ignorando.Este es realmente un problema cultural de pensamiento desequilibrado, donde el sesgo de publicación conduce a favorecer resultados positivos y nuestra naturaleza competitiva requiere que se vea a editores e investigadores que producen resultados de interés que son novedosos o contenciosos, por ejemplo, en el sentido de refutar los resultados de otra persona. En la investigación médica, se han hecho progresos considerables para corregir este problema mediante el registro obligatorio de ensayos y la publicación de resultados con registros de ensayos abandonados que también se harán públicos. Entiendo que, dado que la publicación en revistas de investigación no exitosa puede no ser factible, hay planes para mantener una base de datos públicamente disponible. Los resultados inusuales que no se pueden replicar no son necesariamente el resultado de un delito menor, como quizás con 50,
Usar diferentes métodos tampoco es necesariamente una solución. Por ejemplo, ¿qué químico mezclaría los reactivos de diferentes maneras en diferentes condiciones y esperaría los mismos resultados de manera normal?
fuente