Hace poco hice una pregunta sobre los principios generales en torno a la revisión de estadísticas en documentos . Lo que ahora me gustaría preguntar es qué es lo que te irrita particularmente cuando revisas un artículo, es decir, ¡cuál es la mejor manera de molestar realmente a un árbitro estadístico!
Un ejemplo por respuesta, por favor.
references
referee
csgillespie
fuente
fuente
Respuestas:
Lo que me irrita particularmente personalmente son las personas que claramente usaron paquetes escritos por el usuario para el software estadístico, pero no los citan correctamente, o en absoluto, por lo que no otorgan ningún crédito a los autores. Hacerlo es particularmente importante cuando los autores están en la academia y sus trabajos dependen de la publicación de artículos que se citan . (Quizás debería agregar que, en mi campo, muchos de los culpables no son estadísticos).
fuente
Dios mío, se me ocurren tantas cosas ...
Regresión gradual
División de datos continuos en grupos
Dando valores p pero sin medida del tamaño del efecto
Describir datos utilizando la media y la desviación estándar sin indicar si los datos eran más o menos simétricos y unimodales
Cifras sin subtítulos claros (¿son esas barras de error los errores estándar de la media, o las desviaciones estándar dentro de los grupos, o qué?)
fuente
Irene Stratton y su colega publicaron un breve artículo sobre una pregunta estrechamente relacionada:
Stratton IM, Neil A. Cómo asegurarse de que su artículo sea rechazado por el revisor estadístico . Diabetic Medicine 2005; 22 (4): 371-373.
fuente
No se proporciona el código utilizado para generar los resultados simulados. Después de solicitar el código, exige un trabajo adicional para que se ejecute en un conjunto de datos generado por el árbitro.
fuente
Plagio (teórico o metodológico). Mi primera revisión fue, de hecho, un artículo que figuraba muchas copias / pegados sin referencia de un artículo metodológico bien establecido publicado hace 10 años.
Acabo de encontrar un par de documentos interesantes sobre este tema: autoría y plagio en la ciencia .
En la misma línea, encuentro la falsificación (de datos o resultados) lo peor de todo.
fuente
Cuando le pedimos a los autores
y que los autores realmente no responden en el caso (1) o que los resultados incriminados en (2) desaparecen de la EM.
fuente
Valores p confusos y tamaño del efecto (es decir, decir que mi efecto es grande porque tengo un valor p realmente pequeño).
Ligeramente diferente a la respuesta de Stephan de excluir tamaños de efectos pero dar valores p. Estoy de acuerdo en que debe dar ambos (¡y espero que comprenda la diferencia!)
fuente
No incluye tamaños de efecto.
P-p en toda la investigación (tengo que dar crédito a mi profesor favorito de la escuela de posgrado por esa línea).
Dando una cantidad absurda de dígitos (los hombres ganaron 3.102019 libras más que las mujeres)
No incluye números de página (eso hace que sea más difícil de revisar)
Numeración de figuras y tablas
(como ya se mencionó - paso a paso y categorizando variables continuas)
fuente
Cuando no explican suficientemente su análisis y / o incluyen errores simples que dificultan determinar lo que realmente se hizo. Esto a menudo incluye arrojar mucha jerga, a modo de explicación, lo cual es más ambiguo de lo que el autor parece darse cuenta y también puede ser mal utilizado.
fuente
El uso del lenguaje causal para describir asociaciones en datos de observación cuando se omiten variables es casi con toda seguridad una preocupación seria.
fuente
Cuando los autores usan la única prueba estadística que conocen (en mi campo, generalmente una prueba t o un ANOVA), hasta el infinito, independientemente de si es apropiado. Recientemente revisé un artículo en el que los autores querían comparar una docena de grupos de tratamiento diferentes, por lo que habían realizado una prueba t de dos muestras para cada posible par de tratamientos ...
fuente
Proponer nuevas palabras para los conceptos existentes, o viceversa, usar los términos existentes para denotar algo diferente.
Algunos de los diferenciales terminológicos existentes se han asentado en la literatura: datos longitudinales en bioestadística versus datos de panel en econometría; indicadores de causa y efecto en sociología versus indicadores formativos y reflexivos en psicología; etc. Todavía los odio, pero al menos puedes encontrar algunos miles de referencias a cada uno de ellos en sus respectivas publicaciones. El más reciente es todo este capítulo de trabajo sobre gráficos acíclicos dirigidos en la literatura causal: la mayoría, si no la totalidad, de la teoría de identificación y estimación en estos ha sido desarrollada por economometristas en la década de 1950 bajo el nombre de ecuaciones simultáneas.
El término que tiene doble, si no triple, significa "robusto", y los diferentes significados son a menudo contradictorios. Los errores estándar "robustos" no son robustos para valores atípicos lejanos; Además, no son robustas frente a nada, excepto la desviación supuesta del modelo, y a menudo tienen un rendimiento lamentable de muestra pequeña. Los errores estándar de White no son robustos contra las correlaciones seriales o de clúster; Los errores estándar "robustos" en SEM no son robustos contra las especificaciones erróneas de la estructura del modelo (rutas o variables omitidas). Al igual que con la idea de la prueba de significación de hipótesis nula, es imposible señalar con el dedo a nadie y decir: "Usted es responsable de confundir a varias generaciones de investigadores por acuñar este concepto que realmente no representa su nombre".
fuente
gllamm
que considera sus datos como datos multinivel / jerárquicos, pero la mayoría de los otros paquetes pensarían en mediciones múltiples como variables / columnas y muestras como observaciones / filas.Cero consideración de datos faltantes.
Muchas aplicaciones prácticas usan datos para los que hay al menos algunos valores faltantes. Esto es ciertamente muy cierto en epidemiología. La falta de datos presenta problemas para muchos métodos estadísticos, incluidos los modelos lineales. Los datos faltantes con modelos lineales a menudo se tratan mediante la eliminación de casos con datos faltantes en cualquier covariable. Esto es un problema, a menos que falten datos bajo el supuesto de que faltan datos completamente al azar (MCAR).
Quizás hace 10 años, era razonable publicar resultados de modelos lineales sin tener en cuenta la falta. Ciertamente soy culpable de esto. Sin embargo, muy buenos consejos sobre cómo manejar los datos faltantes con imputación múltiple ahora están ampliamente disponibles, al igual que los paquetes estadísticos / modelos / bibliotecas / etc. para facilitar análisis más apropiados bajo suposiciones más razonables cuando la falta está presente.
fuente
Informar los efectos que "se acercaron a la significación (p <.10, por ejemplo) y luego escribir sobre ellos como si hubieran alcanzado significación a un nivel más estricto y aceptable. Ejecutar múltiples modelos de ecuaciones estructurales que no estaban anidados y luego escribir sobre ellos como si estaban anidados. Tomando una estrategia analítica bien establecida y presentándola como si nadie hubiera pensado en usarla antes. Quizás esto califique como plagio en el enésimo grado.
fuente
Recomiendo los siguientes dos artículos:
Martin Bland:
Cómo molestar al árbitro estadístico
Esto se basa en una serie de charlas impartidas por Martin Bland, junto con datos de otros árbitros estadísticos ('una muestra de conveniencia con una baja tasa de respuesta'). Termina con una lista de 11 puntos de "[h] ahora para evitar molestar al árbitro estadístico".
Stian Lydersen:
Revisión estadística : comentarios frecuentes
Este artículo reciente (publicado 2014/2015) enumera los 14 comentarios de revisión más comunes del autor, basados en aprox. 200 revisiones estadísticas de artículos científicos (en una revista en particular). Cada comentario tiene una breve explicación del problema e instrucciones sobre cómo hacer correctamente el análisis / informe. La lista de referencias citadas es un tesoro de artículos interesantes.
fuente
Estoy más (y con mayor frecuencia) molesto por la "validación" que apunta al error de generalización de los modelos predictivos en los que los datos de la prueba no son independientes (p. Ej., Por lo general, las mediciones múltiples por paciente en los datos, fuera de la rutina o las mediciones de división de validación cruzada no pacientes ).
Aún más molesto, los documentos que dan resultados de validación cruzada tan defectuosos más un conjunto de pruebas independiente que demuestra el sesgo demasiado optimista de la validación cruzada, pero ni una sola palabra de que el diseño de la validación cruzada es incorrecto ...
(Estaría perfectamente feliz si se presentaran los mismos datos "sabemos que la validación cruzada debería dividir a los pacientes, pero estamos atascados con un software que no permite esto. Por lo tanto, probamos un conjunto de pacientes de prueba verdaderamente independiente además ")
(También soy consciente de que bootstrapping = remuestreo con reemplazo generalmente funciona mejor que la validación cruzada = remuestreo sin reemplazo. Sin embargo, encontramos datos espectroscópicos (espectros simulados y configuración de modelo ligeramente artificial pero espectros reales) que validaron cruzados repetidos / iterados y fuera -of-bootstrap tenía una incertidumbre general similar; oob tenía más sesgo pero menos varianza: para reencontrar, estoy mirando esto desde una perspectiva muy pragmática: la validación cruzada repetida vs fuera de bootstrap no importa siempre que muchos documentos ni dividir según el paciente ni informar / discutir / mencionar la incertidumbre aleatoria debido al tamaño limitado de la muestra de prueba).
Además de estar equivocado, esto también tiene el efecto secundario de que las personas que realizan una validación adecuada a menudo tienen que defender por qué sus resultados son mucho peores que todos los demás resultados en la literatura.
fuente
Usar "datos" en un sentido singular. Los datos SON, nunca lo son.
fuente
Para mí, con mucho, es atribuir la causa sin un análisis causal adecuado o cuando hay una inferencia causal inadecuada.
También odio cuando no se presta atención a cómo se manejaron los datos faltantes. También veo muchos artículos en los que los autores simplemente realizan un análisis de caso completo y no mencionan si los resultados son generalizables a la población con valores faltantes o cómo la población con valores faltantes podría ser sistemáticamente diferente de la población con datos completos.
fuente
Usando Microsoft Word en lugar de LaTeX.
fuente