¿Cómo molestar a un árbitro estadístico?

102

Hace poco hice una pregunta sobre los principios generales en torno a la revisión de estadísticas en documentos . Lo que ahora me gustaría preguntar es qué es lo que te irrita particularmente cuando revisas un artículo, es decir, ¡cuál es la mejor manera de molestar realmente a un árbitro estadístico!

Un ejemplo por respuesta, por favor.

csgillespie
fuente
¿Se extiende a las justificaciones recibidas en respuesta a una revisión inicial (donde se solicitaron revisiones menores y / o importantes)?
chl
@chl: Sí, por qué no.
csgillespie

Respuestas:

69

Lo que me irrita particularmente personalmente son las personas que claramente usaron paquetes escritos por el usuario para el software estadístico, pero no los citan correctamente, o en absoluto, por lo que no otorgan ningún crédito a los autores. Hacerlo es particularmente importante cuando los autores están en la academia y sus trabajos dependen de la publicación de artículos que se citan . (Quizás debería agregar que, en mi campo, muchos de los culpables no son estadísticos).

una parada
fuente
2
+1 para mí Esto me frustra, especialmente cuando citan algo incorrecto y he proporcionado los detalles relevantes sobre cómo citar los paquetes
Gavin Simpson
3
Pregunta: al citar un paquete, ¿cita la viñeta (si existe) o el paquete en sí?
Brandon Bertelsen
77
@Brandon: si el autor del paquete se preocupa lo suficiente como para guiarte, entonces ha dado la respuesta en un formulario que será recogido por cita ("some_package")
Ben Bolker
2
Además de tener un documento de referencia, que no es tan fácil de hacer, la forma más fácil de obtener citas es dejar al menos un error en su documento. Luego puede publicar una corrección, que cita el artículo original. Deje un error en la corrección, y puede publicar una corrección que haga referencia a la corrección original y al documento original (vi algo así como un estudiante graduado de primer año). El número de citas crece como un proceso O (N ^ 2), donde N es el número de correcciones.
Mark L. Stone
67

Dios mío, se me ocurren tantas cosas ...

  • Regresión gradual

  • División de datos continuos en grupos

  • Dando valores p pero sin medida del tamaño del efecto

  • Describir datos utilizando la media y la desviación estándar sin indicar si los datos eran más o menos simétricos y unimodales

  • Cifras sin subtítulos claros (¿son esas barras de error los errores estándar de la media, o las desviaciones estándar dentro de los grupos, o qué?)

Stephan Kolassa
fuente
55
Tengo un poco de curiosidad sobre la bala de regresión gradual. ¿Qué hace que la regresión gradual sea tan mala? ¿Es el problema del dragado de datos y las comparaciones múltiples?
Christopher Aden
17
El problema es que los procedimientos paso a paso invalidan por completo todos los supuestos y condiciones previas para las estadísticas inferenciales "normales" basadas en valores de p, que luego están muy sesgados (hacia abajo para ser "más significativos"). Básicamente, la respuesta es "sí", con la advertencia de que uno podría, en principio, corregir todas estas comparaciones múltiples (pero que nunca he visto). Creo firmemente que esta es la razón más importante por la que veo tanta investigación en psicología que no se puede replicar, lo que a su vez conduce a una gran pérdida de recursos.
Stephan Kolassa
10
@Stephan: Estoy de acuerdo, paso a paso es una mala idea. Sin embargo, aunque es posible que aún no hayan llegado a los métodos psicológicos, pero hay una variedad de procedimientos de selección que se ajustan al sesgo relacionado con el sobreajuste ajustando las estimaciones y los errores estándar. Por lo general, esto no se considera un problema de comparaciones múltiples. Son conocidos como métodos de contracción. Vea mi respuesta en este hilo < stats.stackexchange.com/questions/499/… > y las "Estrategias de modelado de regresión" de Harrell o Tibshirani en el lazo.
Brett
55
@Brett Magill: +1 en eso, y sí, sé sobre la contracción y el lazo. Ahora todo lo que necesito es alguna forma de convencer a los psicólogos de que tienen sentido ... pero la gente ha estado luchando con un éxito muy limitado solo para lograr que los psicólogos informen los intervalos de confianza, por lo que no soy demasiado optimista sobre la aceptación de la reducción de los psicólogos en el próximo veinte años.
Stephan Kolassa
10
También argumentaría que, en psicología, maximizar la predicción no suele ser el objetivo teórico, pero la regresión gradual se trata de maximizar la predicción, aunque de forma casi parsimoniosa. Por lo tanto, generalmente hay una desconexión entre el procedimiento y la pregunta.
Jeromy Anglim
32

No se proporciona el código utilizado para generar los resultados simulados. Después de solicitar el código, exige un trabajo adicional para que se ejecute en un conjunto de datos generado por el árbitro.

usuario603
fuente
2
Y está mal formateado, sin comentarios, y utiliza variables y nombres de funciones indescifrables. Ooooh si.
naught101
30

Plagio (teórico o metodológico). Mi primera revisión fue, de hecho, un artículo que figuraba muchas copias / pegados sin referencia de un artículo metodológico bien establecido publicado hace 10 años.

Acabo de encontrar un par de documentos interesantes sobre este tema: autoría y plagio en la ciencia .

En la misma línea, encuentro la falsificación (de datos o resultados) lo peor de todo.

chl
fuente
20
Me recuerda que en mis primeros días como un árbitro que pasamos ahora revisando demasiado tiempo un documento estadístico que finalmente fue rechazado por esa revista en particular, pero los otros árbitros y sugerí una aplicación más útil para el método, y también he esbozado una prueba algebraica para reemplazar un estudio de simulación insatisfactorio en el manuscrito. Desde entonces, los autores obtuvieron dos artículos publicados. Eso no me molesta , pero un reconocimiento como "agradecemos a los árbitros de una versión anterior del documento por sus comentarios útiles" habría sido de buena educación.
parada el
1
@onestop Sí, me imagino lo decepcionante que podría ser tal situación ...
chl
24
Hace unas semanas recibí un artículo para revisar y descubrí que el 85% había sido publicado en otra revista ... por los mismos autores. Eso también se considera plagio. Durante los últimos años, he enviado habitualmente trozos de documentos, especialmente resúmenes, introducciones y conclusiones, a los motores de búsqueda web antes de realizar cualquier revisión. Quiero asegurarme de que el trabajo sea original antes de invertir tiempo en leerlo.
whuber
77
+1, @whuber. Como editor de una revista metodológica, a menudo tengo el difícil trabajo de averiguar si la contribución (por regla general, de autores bien establecidos; los autores más jóvenes aún no han llegado a esa trayectoria) justifica la publicación dado que todos ellos ' Lo que hemos hecho es volver a ensamblar de manera diferente los ocho bloques de Lego que conformaban sus cinco documentos anteriores. Esto me lleva a cuestionar la contribución en los cincuenta artículos anteriores que estos autores también publicaron :(.
StasK
26

Cuando le pedimos a los autores

  1. comentario menor sobre una idea que tenemos (en este sentido, esto no se considera como una razón para rechazar el documento, sino solo para asegurarse de que los autores puedan discutir otro POV), o
  2. resultados poco claros o contradictorios,

y que los autores realmente no responden en el caso (1) o que los resultados incriminados en (2) desaparecen de la EM.

chl
fuente
77
Los resultados que desaparecen misteriosamente deberían ser el rechazo automático, en mi opinión. Estoy seguro de que esto sucede mucho "detrás de escena" (es decir, antes de que se envíe el documento), pero esta es una clara evidencia de "selección de cerezas" que los lectores normales del documento nunca sabrían.
Macro
3
Otra razón para un sistema abierto de revisión por pares.
fmark
24

Valores p confusos y tamaño del efecto (es decir, decir que mi efecto es grande porque tengo un valor p realmente pequeño).

Ligeramente diferente a la respuesta de Stephan de excluir tamaños de efectos pero dar valores p. Estoy de acuerdo en que debe dar ambos (¡y espero que comprenda la diferencia!)

Andy W
fuente
23

No incluye tamaños de efecto.

P-p en toda la investigación (tengo que dar crédito a mi profesor favorito de la escuela de posgrado por esa línea).

Dando una cantidad absurda de dígitos (los hombres ganaron 3.102019 libras más que las mujeres)

No incluye números de página (eso hace que sea más difícil de revisar)

Numeración de figuras y tablas

(como ya se mencionó - paso a paso y categorizando variables continuas)

Peter Flom
fuente
77
(+1) se rió a carcajadas de "Dar un número absurdo de dígitos (los hombres ganaron 3.102019 libras más que las mujeres)".
Macro
19

Cuando no explican suficientemente su análisis y / o incluyen errores simples que dificultan determinar lo que realmente se hizo. Esto a menudo incluye arrojar mucha jerga, a modo de explicación, lo cual es más ambiguo de lo que el autor parece darse cuenta y también puede ser mal utilizado.

anony
fuente
De acuerdo: luchar por comprender lo que los autores querían decir antes de evaluar el contenido científico es realmente molesto.
Laurent
55
Estoy de acuerdo, pero me resulta aún más molesto cuando un revisor le dice que omita (o pase a los materiales suplementarios) cuáles son, de manera realista, detalles muy cruciales sobre el análisis. Este problema hace que muchos documentos de ciencias / ciencias sociales que hacen incluso el análisis más complicado sean bastante crípticos a ese respecto.
Macro
16

El uso del lenguaje causal para describir asociaciones en datos de observación cuando se omiten variables es casi con toda seguridad una preocupación seria.

Michael Bishop
fuente
3
Estoy de acuerdo en que los investigadores deben comprender las responsabilidades de los diseños de investigación observacional, especialmente los relacionados con las variables omitidas, pero no creo que evitar el lenguaje causal haga esto. Vea el trabajo de Hubert Blalock, en particular su libro Causal Inferences in Non-experimental Research para un argumento más detallado en defensa del uso del lenguaje causal.
Andy W
3
(+1) Este podría ser mi mayor problema con la investigación epidemiológica.
Macro
14

Cuando los autores usan la única prueba estadística que conocen (en mi campo, generalmente una prueba t o un ANOVA), hasta el infinito, independientemente de si es apropiado. Recientemente revisé un artículo en el que los autores querían comparar una docena de grupos de tratamiento diferentes, por lo que habían realizado una prueba t de dos muestras para cada posible par de tratamientos ...

Freya Harrison
fuente
13

Proponer nuevas palabras para los conceptos existentes, o viceversa, usar los términos existentes para denotar algo diferente.

Algunos de los diferenciales terminológicos existentes se han asentado en la literatura: datos longitudinales en bioestadística versus datos de panel en econometría; indicadores de causa y efecto en sociología versus indicadores formativos y reflexivos en psicología; etc. Todavía los odio, pero al menos puedes encontrar algunos miles de referencias a cada uno de ellos en sus respectivas publicaciones. El más reciente es todo este capítulo de trabajo sobre gráficos acíclicos dirigidos en la literatura causal: la mayoría, si no la totalidad, de la teoría de identificación y estimación en estos ha sido desarrollada por economometristas en la década de 1950 bajo el nombre de ecuaciones simultáneas.

El término que tiene doble, si no triple, significa "robusto", y los diferentes significados son a menudo contradictorios. Los errores estándar "robustos" no son robustos para valores atípicos lejanos; Además, no son robustas frente a nada, excepto la desviación supuesta del modelo, y a menudo tienen un rendimiento lamentable de muestra pequeña. Los errores estándar de White no son robustos contra las correlaciones seriales o de clúster; Los errores estándar "robustos" en SEM no son robustos contra las especificaciones erróneas de la estructura del modelo (rutas o variables omitidas). Al igual que con la idea de la prueba de significación de hipótesis nula, es imposible señalar con el dedo a nadie y decir: "Usted es responsable de confundir a varias generaciones de investigadores por acuñar este concepto que realmente no representa su nombre".

StasK
fuente
1
Tengo que admitir haber cometido ambos pecados: describo mis datos como "que tienen una estructura jerárquica: cuando tengo niveles con relaciones 1: n (muchas mediciones de cada muestra, múltiples muestras por paciente). En algún momento, accidentalmente aprendí que esto se llama una estructura de datos "agrupados", ahora uso ambos términos, pero aún no sé cómo pude encontrar ese término, busqué desesperadamente la palabra para describir mi estructura de datos ... Al revés: Utilizo técnicas que se llaman clasificación suave en la teledetección. Mi campo (quimiometría) lo usa con un significado bastante diferente.
cbeleites
2
Todo está bien: también puede agregar "multinivel" a su lista de formas de referirse a esta estructura. "Agrupado" generalmente significa que se sabe que las observaciones están correlacionadas, pero a nadie le importa modelar esa correlación, ya que no es de interés principal, y evita los métodos que son robustos para dicha correlación, como GEE. Lo que tienes es algo así como medidas repetidas de MANOVA. Hay un paquete Stata gllammque considera sus datos como datos multinivel / jerárquicos, pero la mayoría de los otros paquetes pensarían en mediciones múltiples como variables / columnas y muestras como observaciones / filas.
StasK
Gracias por el aporte. Bueno, hoy en día, por supuesto, preguntaría cómo se llama ... No se trata exactamente de mediciones repetidas: generalmente mido un número (orden de magnitud: entre 10 ^ 2 y 10 ^ 4) diferentes puntos en la muestra para produce mapas de colores falsos de diferentes componentes, y cada medición ya tiene 10 ^ 2 - 10 ^ 3 observaciones (longitudes de onda en el espectro). Dentro de cada muestra, muchos espectros están altamente correlacionados, pero no todos: las muestras no son homogéneas. ...
cbeleites
1
... Su descripción de "agrupado" se parece mucho a lo que hacemos. Pero me encargo de dividir las muestras para la validación, decir que no tengo idea sobre el tamaño efectivo de la muestra (además de que es al menos el número de muestras reales involucradas), y a veces demuestro que tener todas esas medidas de cada muestra realmente ayuda para el entrenamiento modelo.
cbeleites
1
Datos interesantes y desafiantes, seguro.
StasK
11

Cero consideración de datos faltantes.

Muchas aplicaciones prácticas usan datos para los que hay al menos algunos valores faltantes. Esto es ciertamente muy cierto en epidemiología. La falta de datos presenta problemas para muchos métodos estadísticos, incluidos los modelos lineales. Los datos faltantes con modelos lineales a menudo se tratan mediante la eliminación de casos con datos faltantes en cualquier covariable. Esto es un problema, a menos que falten datos bajo el supuesto de que faltan datos completamente al azar (MCAR).

Quizás hace 10 años, era razonable publicar resultados de modelos lineales sin tener en cuenta la falta. Ciertamente soy culpable de esto. Sin embargo, muy buenos consejos sobre cómo manejar los datos faltantes con imputación múltiple ahora están ampliamente disponibles, al igual que los paquetes estadísticos / modelos / bibliotecas / etc. para facilitar análisis más apropiados bajo suposiciones más razonables cuando la falta está presente.

D L Dahly
fuente
1
En el espíritu de tratar de educar, ¿puedes elaborar más? ¿Qué considera consideración? Admitir que existe o ajustar el análisis estadístico frente a él (por ejemplo, imputación). Cuando corresponde, trato de incluir supp. tablas de valores faltantes por covariables de interés, pero no está claro si esto es suficiente para la "consideración" de este comentario.
Andy W
8

Informar los efectos que "se acercaron a la significación (p <.10, por ejemplo) y luego escribir sobre ellos como si hubieran alcanzado significación a un nivel más estricto y aceptable. Ejecutar múltiples modelos de ecuaciones estructurales que no estaban anidados y luego escribir sobre ellos como si estaban anidados. Tomando una estrategia analítica bien establecida y presentándola como si nadie hubiera pensado en usarla antes. Quizás esto califique como plagio en el enésimo grado.

StatisticsDoc Consulting
fuente
¿Quizás es reinventar la rueda en lugar de plagio?
gerrit
7

Recomiendo los siguientes dos artículos:

Martin Bland:
Cómo molestar al árbitro estadístico
Esto se basa en una serie de charlas impartidas por Martin Bland, junto con datos de otros árbitros estadísticos ('una muestra de conveniencia con una baja tasa de respuesta'). Termina con una lista de 11 puntos de "[h] ahora para evitar molestar al árbitro estadístico".

Stian Lydersen:
Revisión estadística : comentarios frecuentes
Este artículo reciente (publicado 2014/2015) enumera los 14 comentarios de revisión más comunes del autor, basados ​​en aprox. 200 revisiones estadísticas de artículos científicos (en una revista en particular). Cada comentario tiene una breve explicación del problema e instrucciones sobre cómo hacer correctamente el análisis / informe. La lista de referencias citadas es un tesoro de artículos interesantes.

Karl Ove Hufthammer
fuente
La lista de Lydersen es interesante. Creo que no estoy de acuerdo con un puñado de ellos. . .
StatsStudent
6

Estoy más (y con mayor frecuencia) molesto por la "validación" que apunta al error de generalización de los modelos predictivos en los que los datos de la prueba no son independientes (p. Ej., Por lo general, las mediciones múltiples por paciente en los datos, fuera de la rutina o las mediciones de división de validación cruzada no pacientes ).

Aún más molesto, los documentos que dan resultados de validación cruzada tan defectuosos más un conjunto de pruebas independiente que demuestra el sesgo demasiado optimista de la validación cruzada, pero ni una sola palabra de que el diseño de la validación cruzada es incorrecto ...

(Estaría perfectamente feliz si se presentaran los mismos datos "sabemos que la validación cruzada debería dividir a los pacientes, pero estamos atascados con un software que no permite esto. Por lo tanto, probamos un conjunto de pacientes de prueba verdaderamente independiente además ")

(También soy consciente de que bootstrapping = remuestreo con reemplazo generalmente funciona mejor que la validación cruzada = remuestreo sin reemplazo. Sin embargo, encontramos datos espectroscópicos (espectros simulados y configuración de modelo ligeramente artificial pero espectros reales) que validaron cruzados repetidos / iterados y fuera -of-bootstrap tenía una incertidumbre general similar; oob tenía más sesgo pero menos varianza: para reencontrar, estoy mirando esto desde una perspectiva muy pragmática: la validación cruzada repetida vs fuera de bootstrap no importa siempre que muchos documentos ni dividir según el paciente ni informar / discutir / mencionar la incertidumbre aleatoria debido al tamaño limitado de la muestra de prueba).

Además de estar equivocado, esto también tiene el efecto secundario de que las personas que realizan una validación adecuada a menudo tienen que defender por qué sus resultados son mucho peores que todos los demás resultados en la literatura.

cbeleitas
fuente
1
No estoy seguro de si querías decir esto, pero la rutina de "optimismo" es una de las mejores formas de validar un modelo, y su entrenamiento y muestras de prueba se superponen.
Frank Harrell
1
@ Frank Harrell - No estoy seguro de haber entendido tu punto. Quizás la dificultad es que en la quimiometría la "validación de un modelo predictivo" siempre se trata del rendimiento para casos nuevos, desconocidos y futuros (en el ejemplo: diagnóstico de nuevos pacientes). Utilizo fuera de arranque o validación cruzada repetida / iterada todo el tiempo. ¿Puede explicar cuál es la ventaja de la superposición de conjuntos de prueba y entrenamiento en comparación con la división a nivel del paciente? )?
cbeleites
... Y sí, algunos puntos de la validación del modelo se pueden responder sin dividir los datos en distintos casos de prueba y entrenamiento (por ejemplo, estabilidad del modelo en términos de coeficientes). Pero ya la estabilidad del modelo wrt. las predicciones deben medirse utilizando pacientes desconocidos (desconocido: nunca apareció en el proceso de construcción del modelo, incluido cualquier preprocesamiento basado en datos que tenga en cuenta todos los casos). En realidad, para una cuantificación tradicional en quimiometría, la validación tiene pasos que necesitan más datos de prueba medidos independientemente: ...
cbeleites
llamadas de buenas prácticas para el operador desconocida del instrumento y una característica importante del método analítico para determinar durante la validación es la frecuencia necesita la calibración para ser re-hecho (o lo que demuestra que deriva instrumental es insignificante durante un cierto periodo de tiempo) - algunos los autores incluso hablan de un "abuso de remuestreo" que conduce a la negligencia de estos conjuntos de pruebas independientes .
cbeleites
1
Si el equipo o las técnicas de medición necesitan validación, se requiere una muestra independiente. Pero un error común es utilizar la división de datos para intentar simular una validación independiente. Esto sigue siendo una validación interna. Para responder a la pregunta de @cbeleites anterior, las muestras superpuestas involucradas con bootstrapping darán lugar a estimaciones más precisas del rendimiento futuro del modelo que la división de datos en la mayoría de los conjuntos de datos que es probable que vea. He tenido una división de datos deficiente con n = 17,000 y tasa de eventos de 0.30.
Frank Harrell
4

Usar "datos" en un sentido singular. Los datos SON, nunca lo son.

Peter
fuente
2
Probablemente un estadístico francés;)
Stéphane Laurent
99
Debo admitir que recientemente abandoné el uso plural de los datos después de aferrarme a ellos durante 10 años más o menos. Generalmente escribo para audiencias no técnicas y me preocupaba verme pomposo. Parece que la APA todavía tiene una lectura estricta sobre su pluralidad, pero curiosamente, la Royal Statistical Society no parece tener una opinión particular. Aquí hay una discusión interesante: guardian.co.uk/news/datablog/2010/jul/16/data-plural-singular
Chris Beeley
1
No hablo inglés, pero el problema con trabajos como "datos" o "medios" en singular es que el inglés ha tomado prestadas muchas otras palabras latinas y necesita usar todas las palabras latinas de manera consistente. ¿Que sigue? ¿"Currículo es" o "Currículo son"? "Medio son"? Si "datos" es latín, entonces es plural. Fin de la discusión. No importa cuántas personas quieran ignorarlo ahora.
Fran
Tal vez lo estoy usando mal, pero cambio entre singular y plurar según el contexto.
StatsStudent
El uso de la palabra 'datum' es bajo y solo en circunstancias especiales, creo que la palabra 'data' es algo equivalente a la palabra 'pack' con respecto a los 'lobos'. Ciertamente es aceptable usar la palabra 'paquete' en singular para describir múltiples lobos. La palabra 'Datos' se está convirtiendo gradualmente en su propio nombre colectivo ...
Robert de Graaf
3

Para mí, con mucho, es atribuir la causa sin un análisis causal adecuado o cuando hay una inferencia causal inadecuada.

También odio cuando no se presta atención a cómo se manejaron los datos faltantes. También veo muchos artículos en los que los autores simplemente realizan un análisis de caso completo y no mencionan si los resultados son generalizables a la población con valores faltantes o cómo la población con valores faltantes podría ser sistemáticamente diferente de la población con datos completos.

rev. EstadísticasEstudiante
fuente
3

Usando Microsoft Word en lugar de LaTeX.

Simone
fuente