Como revisor, ¿puedo justificar que los datos y el código estén disponibles incluso si la revista no lo hace?

23

Como la ciencia debe ser reproducible, por definición, existe un reconocimiento cada vez mayor de que los datos y el código son un componente esencial de la reproducción, como se discutió en la Mesa Redonda de Yale para compartir datos y códigos .

Al revisar un manuscrito para una revista que no requiere compartir datos y códigos, ¿puedo solicitar que los datos y el código estén disponibles?

  1. para mí en el momento de la revisión
  2. públicamente al momento de la publicación (la revista admite suplementos)

Además, ¿cómo podría formular una solicitud de este tipo?


actualización : aunque estoy interesado en el caso general, este caso particular consiste en un metanálisis con todos los datos publicados anteriormente, y el código es modelos lineales simples en SAS

nota al margen la capacidad de realizar inferencias entre estudios (como es el objetivo del metanálisis) se vería enormemente mejorada si más estudios proporcionaran datos sin procesar

actualización 2 :

Solicité los datos y el código al editor para fines de revisión, el editor consideró que la solicitud era razonable y recibí el material solicitado (suficiente pero con nombres de variables crípticas, sin metadatos y pocos comentarios en línea) en un día.

David LeBauer
fuente
3
Personalmente, estaría bien con el código en casi cualquier circunstancia. Los datos son otro problema. A menos que ya esté disponible públicamente, es probable que no tenga permiso para compartirlo con nadie. Sospecho que esto hace que una solicitud de datos no sea razonable en muchas circunstancias.
Andy W
44
Esto suena como algo que debería discutir con su editor o editor asociado. Si están haciendo su trabajo, deberían poder brindarle orientación y probablemente servirían como punto de contacto para los autores de cualquier solicitud.
cardenal
1
Me parece que muchos de los ejemplos y la discusión subsiguiente se basan en situaciones anecdóticas que pueden variar enormemente según la disciplina y los datos de los que estamos hablando. Claro que algunas situaciones parecen perfectamente razonables para difundir datos, pero eso no necesariamente caracteriza todas las situaciones. ¡Esta pregunta se está convirtiendo en una queja muy rápidamente!
Andy W
1
@ ¿Alguna sugerencia sobre cómo alejarse de una diatriba? por ejemplo, distinciones que se deben hacer en el OP o editar las respuestas (después de todo, es CW).
Abe
1
Creo que este formulario tiene un sesgo de selección :-). La mayoría de nosotros estamos aquí porque la mayoría de nosotros apoyamos la idea de OP de alguna manera.
suncoolsu

Respuestas:

7

En cuanto a la obtención de datos por parte de un revisor, tiene derecho si los necesita para completar su revisión correctamente. Más revisores deberían solicitar datos y evaluarlos. Muchas revistas tienen políticas que pueden requerir los datos y el código de análisis para fines de revisión.

La disponibilidad en el momento de la publicación no está clara para mí. Parece que estás diciendo que quieres forzar el problema de que los datos se hagan públicos como condición de publicación. Esa es una mala idea si no es una política de diario ya. Estás haciendo de la publicación un objetivo móvil injusto. Se presentaron esperando que no fuera un requisito y usted, ni el editor, deberían cambiar el juego.

Sin el conocimiento de muchos investigadores financiados con fondos públicos, se les exige que hagan públicos sus datos. Por ejemplo, la mayoría de las subvenciones de los NIH tienen cláusulas en las que el investigador debe presentar sus datos. La mayoría de las agencias de subvención del gobierno tienen cláusulas de intercambio de datos que obligan al investigador a compartir lo que encuentran (tal vez la fuerza es un poco fuerte dado que es muy difícil perder una subvención por eso ... aunque tal vez perder la renovación). El público pagó por los datos, por lo tanto, el público tiene derecho a ellos --- en el caso de la investigación en humanos, tiene derecho a anonimizarlos.

Algunos de los datos más caros y confidenciales para recopilar, los datos humanos de FMRI, también son algunos de los más disponibles públicamente. No solo PLoS, sino que las principales revistas del campo requieren la presentación de los datos y mantener un banco de datos disponible al público. Creo que esto dice mucho a las personas que se oponen por razones de costo (es muy costoso) y de privacidad (son datos humanos de pequeños estudios y, a veces, poblaciones clínicas únicas que podrían ser muy sensibles). Esas son razones que hacen que esos datos sean más valiosos para el público. Los investigadores que retienen dichos datos están perjudicando a las personas que los compraron (a todos), y necesitan una lección sobre cuáles son sus responsabilidades fuera de su pequeño laboratorio y competencia de publicación.

Si la investigación fue financiada de forma privada, realmente financiada de forma privada, entonces la mejor de las suertes.

John
fuente
Estoy de acuerdo con la mayoría de lo que hay en esto: ya hay requisitos para divulgar datos, generalmente a otros investigadores calificados, en subvenciones financiadas por los NIH y similares. Pero creo que extender esto a un requisito ad hoc para la publicación está excediendo enormemente el papel de un revisor.
Fomite
1
(+1) Respuesta reflexiva y bien articulada. Una cosa a tener en cuenta es que este sitio tiene una audiencia bastante internacional. Espero que más investigadores adopten una visión colaborativa hacia su investigación y datos, incluso si no hay NIH u otra organización que les tuerza el brazo.
cardenal
EpiGrad, en caso de que la respuesta no lo aclare, sentí que hacer un requisito ad hoc para la publicación no solo sobrepasó los límites del revisor, sino también del editor.
John
Cardenal, gracias por el cumplido. Gracias por el recordatorio también. Intento tener en cuenta que el sitio es internacional. Tan grande como es NIH, no está en mi país. ;)
John
@John. Sí, me olvidé de poner +1 al estar de acuerdo contigo :)
Fomite
6

Abordar las dos situaciones por separado:

Como revisor: Sí, creo que tendría motivos para pedir ver los datos o el código. Pero si fuera usted, me prepararía para ver cosas como código reducido o una submuestra de datos. Las personas implementan investigaciones futuras que no se informan en este documento en su código todo el tiempo, y usted no tiene derecho a dicho código. Como hago principalmente investigación biomédica, también estaría preparado para tener que lidiar con algunos acuerdos de uso de datos bastante restrictivos.

En la propia revista: No. Si un investigador quiere reproducir mis resultados, puede acercarse a mí para pedirme un código, por eso tenemos los autores correspondientes. Para datos, absolutamente no, bajo ninguna circunstancia. Mis datos se rigen por IRB y acuerdos de confidencialidad, no solo se harán públicos. Si yo quieroun conjunto de datos público, podría simular un conjunto de datos con propiedades similares (es decir, los datos de red "Faux-Mesa" disponibles en uno de los paquetes de red para R), pero como revisor, no tiene ninguna llamada para forzar eso . Si es un requisito de toda la revista, los autores sabían que sus datos / código serían públicos al enviarlo, pero si no es así, entonces no. Su función es evaluar la calidad del documento en sí (de ahí que esté de acuerdo con él para los fines de la revisión), no utilizar su capacidad para contribuir a la aceptación / rechazo del documento para impulsar lo que es esencialmente un punto filosófico / político fuera del alcance de la revista.

En el mejor de los casos, pondría un "Insto encarecidamente a los autores a que pongan a disposición su código y sus datos, siempre que sea posible" en sus comentarios, pero no lo expresaría con más fuerza que eso, y no lo pondría en la lista formal de "Cosas que creo que necesitan arreglarse antes de que esto vea la luz del día".

Fomite
fuente
Acabo de notar sus ediciones: en este caso, en lo que respecta al documento, por respuesta es en realidad un 'no' más fuerte, suponiendo que el documento tenga citas. Si el objetivo de la solicitud es 'investigación reproducible', y los datos se pueden encontrar públicamente, entonces no hay razón por la cual un investigador que busca confirmar los hallazgos no pueda hacerlo por sí mismo. Además, si el punto es realmente evaluar la ciencia, en lugar de simplemente demostrar que usted también puede hacer clic en "Ejecutar" y obtener los mismos resultados, pasar por el proceso de búsqueda y abstracción en el literaute usted mismo es parte de verificar un resultado.
Fomite
Para que la investigación sea reproducible, la versión del código y los datos utilizados en el análisis deben estar disponibles, y el código no utilizado en el análisis no sería de esperar (o necesariamente relevante).
David LeBauer
@EpiGrad: En cierto nivel, no estoy del todo de acuerdo con este fuerte no . Keith Baggerly ha estado evangelizando sobre este tema últimamente y hace algunas observaciones interesantes. Ver, por ejemplo, KA Baggerly y KR Coombes, Derivando la quimiosensibilidad de las líneas celulares: bioinformática forense e investigación reproducible en biología de alto rendimiento , Ann. Appl. Stat. , vol 3, no. 4, págs. 1309-1334. También hay una versión arxiv .
cardenal
Sé de muy pocos investigadores financiados por subvenciones que tienen problemas de IRB y de confidencialidad que realmente restringen la publicación de datos debidamente anonimizados. Si estás en esa situación, es un caso bastante raro.
John
@EpiGrad También cuestiono el fuerte no . Los métodos utilizados para pasar de datos en bruto a métricas derivadas en un metanálisis a menudo requieren un amplio conjunto de supuestos relacionados con las diferencias en la metodología y la interpretación que se producen a nivel de un estudio individual. En este caso, hay más de 200 estudios representados, por lo que el tiempo requerido para reconstruir el conjunto de datos sería prohibitivo y, en última instancia, inhibiría el objetivo final del progreso de la ciencia.
David LeBauer
5

Como John dice, la disponibilidad de datos para los revisores debería ser obvia; Una revisión cuidadosa debe incluir la replicación del análisis y, como tal, requiere acceso a los datos.

Con respecto a la disponibilidad pública de los datos después de la publicación, diría que la batalla se debe librar con la revista en general en lugar de con respecto a una presentación específica.

En una nota más general, las agencias de financiación y los IRB están cada vez más conscientes de que el intercambio de datos es un componente de investigación tanto científica como éticamente necesario. Al aumentar la disponibilidad para un nuevo análisis que podría generar nuevos resultados de informes erróneos correctos, el intercambio de datos aumenta los beneficios potenciales para la investigación, modificando así la compensación costo / beneficio para la ventaja de los participantes de la investigación. Ciertamente, es necesario informar a los participantes sobre la posibilidad de que se compartan sus datos, y también es necesario establecer salvaguardas para evitar un mayor riesgo de identificación para los participantes, pero esto se puede lograr en la mayoría de las circunstancias. En mi propia investigación, les aseguro a los participantes (y a mi IRB) que (1) los datos se almacenarán en un formato cifrado seguro (actualizado a medida que avanza la tecnología de descifrado),

Mike Lawrence
fuente
1

No tengo ninguna experiencia con esto, pero me parece que podría insistir en el # 1 como parte de su propia diligencia debida en la revisión de sus resultados. Sin embargo, no veo cómo puedes insistir en el # 2.

Wayne
fuente