Estadísticas publicadas en trabajos académicos.

44

Leí muchos artículos académicos evolutivos / ecológicos, a veces con el objetivo específico de ver cómo se usan las estadísticas 'en el mundo real' fuera del libro de texto. Normalmente tomo las estadísticas en los documentos como gospel y utilizo los documentos para ayudar en mi aprendizaje estadístico. Después de todo, si un artículo ha tardado años en redactarse y ha sido sometido a una rigurosa revisión por pares, ¿entonces seguramente las estadísticas serán sólidas? Pero en los últimos días, he cuestionado mi suposición y me he preguntado con qué frecuencia es sospechoso el análisis estadístico publicado en artículos académicos. En particular, se podría esperar que aquellos en campos como la ecología y la evolución hayan pasado menos tiempo aprendiendo estadísticas y más tiempo aprendiendo sus campos.

¿Con qué frecuencia las personas encuentran estadísticas sospechosas en los trabajos académicos?

publication-bias academia luciano
fuente

8

De posible interés: Nieuwenhuis et al. (2011), "Análisis erróneos de interacciones en neurociencia: un problema de importancia", Nature Neuroscience , 14 , 9.

Scortchi - Restablece a Monica

18

Los revisores suelen ser personas que no saben mucho más sobre estadísticas que los que escriben el documento, por lo que a menudo puede ser fácil publicar estadísticas deficientes.

Behacad

99

Publicar un artículo es el primer paso para su aceptación por la comunidad científica, no el último. La mayoría de los artículos publicados tendrán fallas significativas en alguna área, el uso de estadísticas no es una excepción.

Dikran Marsupial

3

Su suposición de que los documentos "tardan años en escribirse" está fuera de lugar. La recopilación de datos puede llevar mucho tiempo, pero analizar los datos y escribirlos suele ser semanas en lugar de años.

David Richerby

2

Hoy en día es bien sabido que las estadísticas en muchos artículos de psicología y medicina son cuestionables al menos, simplemente erróneas o ni siquiera con tanta frecuencia. El uso pobre de los valores p y NHST es un ejemplo destacado de los problemas, vea esta nota .

Cuarzo

38

Después de todo, si un artículo ha tardado años en redactarse y ha sido sometido a una rigurosa revisión por pares, ¿entonces seguramente las estadísticas serán sólidas?

Mi experiencia en la lectura de documentos que intentan aplicar estadísticas en una amplia variedad de áreas (ciencias políticas, economía, psicología, medicina, biología, finanzas, ciencias actuariales, contabilidad, óptica, astronomía y muchas, muchas otras) es que la calidad de El análisis estadístico puede estar en cualquier parte del espectro, desde excelente y bien hecho hasta necedades atroces. He visto un buen análisis en cada una de las áreas que he mencionado, y un análisis bastante pobre en casi todas ellas.

En general, algunos diarios son bastante buenos, y algunos pueden ser más como jugar a los dardos con los ojos vendados: es posible que la mayoría de ellos no estén demasiado lejos del objetivo, pero habrá algunos en la pared, el piso y el techo. Y tal vez el gato.

No planeo nombrar a ningún culpable, pero diré que he visto carreras académicas basadas en el uso defectuoso de las estadísticas (es decir, donde los mismos errores y malentendidos se repitieron en papel tras papel, durante más de una década).

Así que mi consejo es que el lector tenga cuidado ; no confíe en que los editores y revisores expertos sepan lo que están haciendo. Con el tiempo, puede tener una idea clara de los autores en los que generalmente se puede confiar para que no hagan nada demasiado impactante, y cuáles deben tratarse especialmente con cautela. Puede tener la sensación de que algunas revistas suelen tener un estándar muy alto para sus estadísticas.

Pero incluso un autor típicamente bueno puede cometer un error, o los árbitros y los editores pueden fallar en detectar los errores que normalmente podrían encontrar; un diario típicamente bueno puede publicar un aullador.

[A veces, incluso verás que los papeles realmente malos ganan premios o premios ... lo que tampoco dice mucho sobre la calidad de las personas que juzgan el premio].

No me gustaría adivinar cuál es la fracción de estadísticas "malas" que podría haber visto (en varias formas, y en cada etapa desde la definición de la pregunta, el diseño del estudio, la recopilación de datos, la gestión de datos, ... hasta análisis y conclusiones), pero no es lo suficientemente pequeño como para que me sienta cómodo.

Podría señalar ejemplos, pero no creo que este sea el foro adecuado para hacerlo. (Sería bueno si no era un foro bueno para que, en realidad, pero por otra parte, es probable que llegar a ser muy "politizado" con bastante rapidez, y pronto dejará de servir a su propósito.)

$\alpha$ aparentemente se aplicaron para resolver exactamente la misma pregunta. Esto me parece una mala idea en general. En general, el estándar fue bastante bueno en algunas docenas de documentos, pero en el pasado he visto un documento absolutamente terrible allí.

[Quizás podría disfrutar de un solo ejemplo, indirectamente. Esta pregunta se refiere a alguien que hace algo bastante dudoso. Está lejos de ser lo peor que he visto.]

Por otro lado, también veo (incluso con más frecuencia) casos en los que las personas se ven obligadas a saltar a través de todo tipo de aros innecesarios para que su análisis sea aceptado; no se aceptan cosas perfectamente razonables porque hay una forma "correcta" de hacer las cosas de acuerdo con un revisor, un editor o un supervisor, o simplemente en la cultura tácita de un área en particular.

Glen_b
fuente

2

" Advertencia lector ", dado el creciente número de revistas de acceso abierto?

Scortchi - Restablece a Monica

1

@scortchi Decidí evitar el problema por completo simplemente escribiendo en inglés. Es una mejora

Glen_b

10

Sin nombrar culpables específicos, creo que faculty.vassar.edu/abbaird/about/publications/pdfs/… merece una mención. Para probar un punto sobre el mal uso de las estadísticas en su campo, utilizaron un protocolo estadístico ampliamente utilizado para analizar los resultados de una exploración fMRI de un salmón muerto. Encontraron actividad cerebral "estadísticamente significativa". statsdonewrong.com también hace una lectura interesante.

James_pic

1

@James_pic, tuvo que unirse a +1 en ese comentario para el enlace statsdonewrong; La discusión de la falacia de la tasa base es particularmente interesante.

Dan Bryant

1

@KennyPeanuts: Ni - acaba de señalar que hoy en día muchos lectores no son ni siquiera indirectamente Emptores .

Scortchi - Restablece a Monica

16

Respeto la postura de @ Glen_b sobre la forma correcta de responder aquí (y ciertamente no tengo la intención de restarle importancia), pero no puedo resistirme a señalar un ejemplo particularmente entretenido que esté cerca de mi casa. A riesgo de politizar las cosas y perjudicar el propósito de esta pregunta, recomiendo Wagenmakers, Wetzels, Boorsboom y Van Der Maas ^{₍₂₀₁₁₎} . Cité esto en una publicación relacionada en el Beta SE de Cognitive Sciences ( ¿Cómo explica la ciencia cognitiva la intencionalidad distante y la función cerebral en los receptores? ), Que considera otro ejemplo de "un dardo golpeando al gato". Sin embargo, el artículo de Wagenmakers y sus colegas comenta directamente sobre un verdadero "aullador": fue publicado en JPSP (una de las revistas más grandes en psicología) Hace unos pocos años. También argumentan más en general a favor del análisis bayesiano y que:

Para convencer a una audiencia escéptica de un reclamo controvertido, uno debe realizar estudios estrictamente confirmatorios y analizar los resultados con pruebas estadísticas que sean conservadoras en lugar de liberales.

Probablemente no necesito decirte que esto no fue exactamente una predicación al coro. FWIW, también hay una refutación (como siempre parece haber entre bayesianos y frecuentistas; ^{_{( Bem, Utts, & Johnson, 2011 )}} , pero tengo la sensación de que no se cerró exactamente el debate .

La psicología como comunidad científica ha tenido un poco de réplica recientemente, en parte debido a esta y otras deficiencias metodológicas de alto perfil. Otros comentarios aquí apuntan a casos similares a lo que antes se conocían como correlaciones de vudú en la neurociencia social (¿cómo es eso para BTW políticamente incorrecto? El documento ha sido retitulado; ^{_{Vul, Harris, Winkielman y Pashler, 2009}} ). Eso también atrajo su refutación , que puede ver para más debate sobre prácticas altamente discutibles.

Para obtener aún más entretenimiento educativo a expensas (más despersonalizadas) de los (pseudo) estadísticos que se comportan mal, vea nuestra octava pregunta más votada aquí en CV con otro título (incorrecto) políticamente incorrecto, " ¿Qué son los pecados estadísticos comunes? " Su OP @MikeLawrence atribuye su inspiración a su estudio paralelo de psicología y estadística. Es uno de mis favoritos personales, y sus respuestas son muy útiles para evitar los innumerables escollos que existen.

En lo personal, he pasado gran parte de mis últimos cinco meses aquí en gran medida porque es increíblemente difícil obtener estadísticas sólidas sobre ciertas preguntas analíticas de datos. Francamente, la revisión por pares a menudo no es muy rigurosa en absoluto, especialmente en términos de escrutinio estadístico de la investigación en ciencias más jóvenes con preguntas complejas y muchas complicaciones epistémicas. Por lo tanto, he sentido la necesidad de asumir la responsabilidad personal de pulir los métodos en mi propio trabajo.

Mientras presentaba mi investigación de tesis , me di cuenta de la importancia de la responsabilidad personal para el escrutinio estadístico. Dos psicólogos excepcionales en mi alma mater intervinieron que estaba cometiendo uno de los pecados más básicos en mis interpretaciones de correlaciones. Me había pensado por encima de eso, y ya había enseñado a estudiantes universitarios varias veces sobre eso, pero aún así fui y me llamaron (desde el principio, gracias a Dios). ¡Fui allí porque la investigación que estaba revisando y replicando fue allí! Así terminé agregando varias secciones a mi disertación eso llamó a esos otros investigadores a asumir la causalidad de los estudios longitudinales cuasiexperimentales (a veces incluso de correlaciones transversales) e ignorar las explicaciones alternativas prematuramente.

Mi tesis fue aceptada sin revisiones por mi comité, que incluía a otro psicometrista excepcional y el que pronto sería presidente de SPSP (que publica JPSP), pero para ser sincero una vez más, no estoy presumiendo al decir esto. Desde entonces, he logrado perforar varios agujeros de conejo en mis propios métodos a pesar de pasar el proceso de revisión externa con revisores perfectamente buenos. Ahora he caído en el extremo profundo de las estadísticas al tratar de conectarlas con métodos más apropiados para el modelado predictivo de clasificaciones de Likert como SEM, IRT y análisis no paramétrico (consulte Pruebas de regresión después de la reducción de dimensiones) Estoy optando voluntariamente por pasar años en un artículo que probablemente podría publicar tal como está ... Creo que incluso me queda un estudio de simulación antes de poder proceder concienzudamente.

Sin embargo, enfatizo que esto es opcional, tal vez incluso demasiado celoso y un lujo costoso en medio de la cultura de publicar o perecer que a menudo enfatiza la cantidad sobre la calidad en los registros de trabajo de la primera carrera. La aplicación errónea de modelos paramétricos para datos continuos a distribuciones que violan los supuestos de datos ordinales es demasiado común en mi campo, al igual que la interpretación errónea y la tergiversación de la significación estadística (ver Acomodando vistas arraigadas de valores p ). Podría salirse con la suya (a corto plazo) ... y ni siquiera es tan difícil hacerlo mejor que eso. Sin embargo, supongo que tengo varios años recientes de increíbles avances en los programas de R para agradecer eso. Espero que los tiempos estén cambiando.

^{Referencias

· Bem, DJ, Utts, J. y Johnson, WO (2011). ¿Deben los psicólogos cambiar la forma en que analizan sus datos? Revista de Personalidad y Psicología Social, 101 (4), 716–719. Recuperado de http://deanradin.com/evidence/Bem2011.pdf .

· Vul, E., Harris, C., Winkielman, P. y Pashler, H. (2009). Correlaciones asombrosamente altas en los estudios de resonancia magnética funcional de la emoción, la personalidad y la cognición social. Perspectives on Psychological Science, 4 (3), 274–290. Recuperado de http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .

·Wagenmakers, EJ, Wetzels, R., Borsboom, D. y Van der Maas, H. (2011). Por qué los psicólogos deben cambiar la forma en que analizan sus datos: el caso de psi. Revista de Personalidad y Psicología Social, 100 , 426–432. Recuperado de http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf .}

Nick Stauner
fuente

1

Si disfrutaste "Feeling the Future", entonces te puede gustar Witztum et al. (1994), "Secuencias de letras equidistantes en el libro del Génesis", Statist. Sci. , 9 , 3 . Atrajo a los inevitables burladores y negacionistas: McKay et. Alabama. (1999), "Resolviendo el rompecabezas del código bíblico", Statist. Sci. , 14 , 2 .

Scortchi - Restablece a Monica

1

@Scortchi: gracias por la referencia, y ameba: gracias por el contexto. No veo el reclamo en Witzum et al. que McKay et al. se burlan en su resumen, pero seguramente señalan muchos otros defectos serios. Buen material. "Mientras que los datos reales pueden confundir las expectativas de los científicos incluso cuando sus hipótesis son correctas, aquellos cuyos experimentos están sistemáticamente sesgados hacia sus expectativas están menos decepcionados (Rosenthal, 1976)". Ese es uno de los tipos que me llamó por inferencia causal basada en cuasi-experimentos ... un psicólogo realmente genial. Bem también tiene algo de credibilidad.

Nick Stauner

2

+1 Excelente publicación. " cuán importante es la responsabilidad personal para el escrutinio estadístico ": debo aplaudir. En última instancia, aquí es donde debe recaer la responsabilidad, tan oneroso como puede ser para alguien que ya está tratando de hacer el trabajo en un área de investigación a la que desea aplicar estadísticas.

Glen_b

1

@NickStauner: McKay et al. dicen en su resumen que Witzum et al. afirman que "el texto hebreo del Libro del Génesis codifica eventos que no ocurrieron hasta milenios después de que el texto fue escrito". Tal vez una ligera hipérbole, ya que son poco más de dos milenios como máximo entre la redacción de la Torá y la fecha de nacimiento del último rabino de su lista, pero un resumen bastante justo. (Supongo que también se puede ver el Witztum et al papel como evidencia de reciente autoría del libro del Génesis, aunque por lo que yo sé, nadie ha hecho..)

Scortchi - Restablecer Mónica

1

Sí, supongo que no podría entender a Witzum et al. lo suficientemente bien como para reconocer que estaban haciendo esa afirmación. Por una vez, supongo que podría estar agradecido por la escritura obtusa de los autores ... Parece un poco más interesante a primera vista porque la afirmación más destacada es que el patrón no se debe al azar, no a lo que se supone que debe el patrón. en su opinión. Podría haber invitado a interpretaciones más interesantes como la suya si no se hubiera extralimitado como McKay et al. dicen que sí ... al menos hasta que McKay et al. los derribó por razones metodológicas, sin dejar nada que valga la pena interpretar.

Nick Stauner

5

Recuerdo que en la universidad unos pocos estudiantes de ciencias sociales del último año preguntaron en diferentes ocasiones (uno de ellos obtuvo un 1er) cómo calcular un promedio para su proyecto que había tenido un puñado de puntos de datos. (Entonces no tenían problemas con el uso de software, solo con el concepto de cómo hacer las matemáticas con una calculadora).

Simplemente me miran en blanco cuando les pregunto qué tipo de promedio querían.

Sin embargo, todos sintieron la necesidad de incluir algunas estadísticas en su informe, ya que era lo que se había hecho. Espero que todos hayan leído 101 documentos que tenían estadísticas sin pensar en lo que significaban las estadísticas.

Está claro que al investigador que les enseñó durante los 3 años no le importó la exactitud de las estadísticas lo suficiente como para destilar cualquier comprensión a los estudiantes.

(Yo era un estudiante de ciencias de la computación en ese momento. Estoy publicando esto como respuesta, ya que es un poco largo para un comentario).

Ian Ringrose
fuente

Los estudiantes son otro barril de monos, en mi opinión. No culparía al maestro inmediatamente por su falta de comprensión sin más evidencia ... pero si es tan claro como usted dice que el maestro tiene la culpa, tampoco me sorprendería.

Nick Stauner

@NickStauner, culpo al maestro por no preocuparse lo suficiente por las estadísticas; si les importara, habría al menos una pregunta en cada examen que necesitara alguna comprensión de las estadísticas, al nivel de "Cómo mentir con las estadísticas". No me importa si los estudiantes de ciencias sociales saben cómo hacer el cálculo, pero deberían saber cómo no ser engañados.

Ian Ringrose

Estuvieron de acuerdo en que deberían saberlo, ¡pero no hay garantía de que respondan bien esa pregunta!

Nick Stauner

@NickStauner, sí, pero solo obtienes cuál es la medida, por lo que no obtendrás estudiantes que entiendan nada sobre estadísticas a menos que lo pongas en los exámenes.

Ian Ringrose

Nuevamente, tiendo a darles a los maestros menos crédito por los resultados de los estudiantes. Muchos estudiantes (bueno, tal vez no "muchos", pero algunos) se preocuparán lo suficiente como para aprender por sí mismos, y algunos vendrán a clase ya sabiendo mucho del material. Perdóname si interpreto tu comentario demasiado absolutamente sin embargo; Estoy de acuerdo en que a menudo es un mal necesario forzar la motivación para aprender sobre los estudiantes, y que las pruebas son una mejor manera de aprender que estudiar / dar conferencias repetitivas y de memoria.

Nick Stauner

0

Como una lista lamentablemente incompleta, encuentro las estadísticas más frecuentemente correctas en 1) documentos de física seguidos de 2) documentos estadísticos y los más miserables en 3) documentos médicos. Las razones para esto son sencillas y tienen que ver con la integridad de los requisitos impuestos al modelo prototípico en cada campo.

En los documentos de física, las ecuaciones y las estadísticas aplicadas deben prestar atención a las unidades equilibradas y tener la ocurrencia más frecuente de relaciones causales y pruebas contra estándares físicos.

En estadística, 1) las unidades y la causalidad a veces se ignoran, los supuestos a veces son heurísticos, y las pruebas físicas se ignoran con demasiada frecuencia, pero la igualdad (o desigualdad), es decir, la lógica generalmente se conserva a lo largo de un camino inductivo, donde este último no puede corregir supuestos no físicos.

En medicina, generalmente se ignoran las unidades, las ecuaciones y suposiciones son típicamente heurísticas, típicamente no probadas y con frecuencia espurias.

Naturalmente, un campo como la mecánica estadística es más probable que tenga suposiciones comprobables que, digamos, economía, y eso no se refleja en el talento de los futuros autores en esos campos. Está más relacionado con cuánto de lo que se está haciendo es realmente comprobable y cuánto se ha hecho históricamente en cada campo.

Carl
fuente

-7

Cualquier artículo que refuta la hipótesis nula nula está utilizando estadísticas sin valor (la gran mayoría de lo que he visto). Este proceso no puede proporcionar información no proporcionada por el tamaño del efecto. Además, no nos dice nada acerca de si un resultado significativo se debe realmente a la causa teorizada por el investigador. Esto requiere una investigación cuidadosa de los datos para evidencia de confusión. En la mayoría de los casos, si está presente, la evidencia más fuerte es incluso descartada como "valores atípicos".

No estoy tan familiarizado con la evolución / ecología, pero en el caso de la investigación psicológica y médica llamaría al nivel de comprensión estadística "severamente confundido" y "un obstáculo para el progreso científico". Se supone que las personas están refutando algo predicho por su teoría, no lo opuesto (diferencia / efecto cero).

Se han escrito miles de artículos sobre este tema. Busque la controversia híbrida NHST.

Editar: Y quiero decir que la prueba de significación de hipótesis nula nula tiene un valor científico máximo de cero. Esta persona golpea el clavo en la cabeza:

http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/

También: Paul Meehl. 1967. Pruebas de teoría en psicología y física: una paradoja metodológica

Edición 3:

Si alguien tiene argumentos a favor de la utilidad de Strawman NHST que no requieren pensar "rechace la hipótesis de que la tasa de calentamiento es la misma, pero NO tome esto para implicar que la tasa de calentamiento es la misma" es racional declaración, agradecería sus comentarios.

Edición 4:

¿Qué quiso decir Fisher con la siguiente cita? ¿Sugiere que pensó "Si el modelo / teoría A es incompatible con los datos, podemos decir que A es falso, pero nada sobre si A no es verdadero"?

"Es cierto que el interés de las pruebas estadísticas para los trabajadores científicos depende completamente de su uso para rechazar hipótesis que, por lo tanto, se consideran incompatibles con las observaciones".

...

Por lo tanto, se agregaría en gran medida a la claridad con la que se consideran las pruebas de significación si se entendiera en general que las pruebas de significación, cuando se usan con precisión, son capaces de rechazar o invalidar hipótesis, en la medida en que los datos las contradicen ; pero que nunca son capaces de establecerlos como verdaderos

Karl Pearson y RA Fisher en pruebas estadísticas: un intercambio de 1935 de la naturaleza

¿Es que asumió que la gente solo trataría de invalidar hipótesis plausibles en lugar de hombres de paja? ¿O estoy equivocado?

Lívido
fuente

77

"Este proceso no puede proporcionar información que no haya sido proporcionada por el tamaño del efecto". esto es incorrecto, el valor p proporciona información sobre cuán inusual sería este tamaño del efecto bajo la hipótesis nula, por lo tanto, proporciona un elemento de calibración del tamaño del efecto. No me malinterpreten, creo que los factores de Bayes son más útiles, pero es una hipérbole decir que el valor p es una estadística inútil.

Dikran Marsupial

3

"Me parece que vale la pena mencionar todos los patrones que (y otros) notamos" este es exactamente el problema que surge en la discusión sobre el clima en los blogs, el ojo humano es muy bueno para ver patrones en los datos que resultan ser solo ruido, ¡y la relación señal / ruido en el debate no sirve para nada para no tener algún obstáculo para superar una idea antes de publicarla en un blog! Es un área de la ciencia donde las estadísticas son a menudo muy pobres.

Dikran Marsupial

2

Livid, te di un ejemplo concreto de dónde sería beneficioso realizar un NHST apropiado con un "hombre de paja" H0 para la discusión de un tema científico. Esto proporciona un contraejemplo demuestra claramente que el fin de ser incorrecto - NHSTs, como viciada, ya que son, no obstante, realizar una función útil en la ciencia y la estadística. Ahora, si puede demostrar que mi contraejemplo es correcto, eso puede ayudar a resolver el problema.

Dikran Marsupial

2

@Livid, NHST realiza una función científica y estadística, no socialmente deseable (aunque no de manera óptima) y no establece un obstáculo arbitrario, el obstáculo generalmente se define por su oposición a H1 y no implica comprometerse "afirmando el consecuente falacias "como rechazar H0 no implica que H1 sea verdadero. Entonces no, no es exacto.

Dikran Marsupial

3

Estas perdiendo el punto. Si tiene un obstáculo bajo, nadie se sorprenderá si puede negociarlo con éxito. Sin embargo, si tienes un obstáculo bajo, pero aún no puedes superarlo, eso te dice algo. Como he dicho repetidamente, rechazar el valor nulo no implica que H1 sea cierto, por lo que rechazar H0 no significa que definitivamente haya una pausa, no te dice por qué ha habido una pausa. Pero si no puede superar el obstáculo de ser capaz de rechazar H0, sugiere que tal vez no haya pruebas suficientes para afirmar H1 como un hecho (que es lo que está sucediendo en este caso).

Dikran Marsupial

Estadísticas publicadas en trabajos académicos.

Respuestas: