Leí muchos artículos académicos evolutivos / ecológicos, a veces con el objetivo específico de ver cómo se usan las estadísticas 'en el mundo real' fuera del libro de texto. Normalmente tomo las estadísticas en los documentos como gospel y utilizo los documentos para ayudar en mi aprendizaje estadístico. Después de todo, si un artículo ha tardado años en redactarse y ha sido sometido a una rigurosa revisión por pares, ¿entonces seguramente las estadísticas serán sólidas? Pero en los últimos días, he cuestionado mi suposición y me he preguntado con qué frecuencia es sospechoso el análisis estadístico publicado en artículos académicos. En particular, se podría esperar que aquellos en campos como la ecología y la evolución hayan pasado menos tiempo aprendiendo estadísticas y más tiempo aprendiendo sus campos.
¿Con qué frecuencia las personas encuentran estadísticas sospechosas en los trabajos académicos?
fuente
Respuestas:
Mi experiencia en la lectura de documentos que intentan aplicar estadísticas en una amplia variedad de áreas (ciencias políticas, economía, psicología, medicina, biología, finanzas, ciencias actuariales, contabilidad, óptica, astronomía y muchas, muchas otras) es que la calidad de El análisis estadístico puede estar en cualquier parte del espectro, desde excelente y bien hecho hasta necedades atroces. He visto un buen análisis en cada una de las áreas que he mencionado, y un análisis bastante pobre en casi todas ellas.
En general, algunos diarios son bastante buenos, y algunos pueden ser más como jugar a los dardos con los ojos vendados: es posible que la mayoría de ellos no estén demasiado lejos del objetivo, pero habrá algunos en la pared, el piso y el techo. Y tal vez el gato.
No planeo nombrar a ningún culpable, pero diré que he visto carreras académicas basadas en el uso defectuoso de las estadísticas (es decir, donde los mismos errores y malentendidos se repitieron en papel tras papel, durante más de una década).
Así que mi consejo es que el lector tenga cuidado ; no confíe en que los editores y revisores expertos sepan lo que están haciendo. Con el tiempo, puede tener una idea clara de los autores en los que generalmente se puede confiar para que no hagan nada demasiado impactante, y cuáles deben tratarse especialmente con cautela. Puede tener la sensación de que algunas revistas suelen tener un estándar muy alto para sus estadísticas.
Pero incluso un autor típicamente bueno puede cometer un error, o los árbitros y los editores pueden fallar en detectar los errores que normalmente podrían encontrar; un diario típicamente bueno puede publicar un aullador.
[A veces, incluso verás que los papeles realmente malos ganan premios o premios ... lo que tampoco dice mucho sobre la calidad de las personas que juzgan el premio].
No me gustaría adivinar cuál es la fracción de estadísticas "malas" que podría haber visto (en varias formas, y en cada etapa desde la definición de la pregunta, el diseño del estudio, la recopilación de datos, la gestión de datos, ... hasta análisis y conclusiones), pero no es lo suficientemente pequeño como para que me sienta cómodo.
Podría señalar ejemplos, pero no creo que este sea el foro adecuado para hacerlo. (Sería bueno si no era un foro bueno para que, en realidad, pero por otra parte, es probable que llegar a ser muy "politizado" con bastante rapidez, y pronto dejará de servir a su propósito.)
[Quizás podría disfrutar de un solo ejemplo, indirectamente. Esta pregunta se refiere a alguien que hace algo bastante dudoso. Está lejos de ser lo peor que he visto.]
Por otro lado, también veo (incluso con más frecuencia) casos en los que las personas se ven obligadas a saltar a través de todo tipo de aros innecesarios para que su análisis sea aceptado; no se aceptan cosas perfectamente razonables porque hay una forma "correcta" de hacer las cosas de acuerdo con un revisor, un editor o un supervisor, o simplemente en la cultura tácita de un área en particular.
fuente
Respeto la postura de @ Glen_b sobre la forma correcta de responder aquí (y ciertamente no tengo la intención de restarle importancia), pero no puedo resistirme a señalar un ejemplo particularmente entretenido que esté cerca de mi casa. A riesgo de politizar las cosas y perjudicar el propósito de esta pregunta, recomiendo Wagenmakers, Wetzels, Boorsboom y Van Der Maas (2011) . Cité esto en una publicación relacionada en el Beta SE de Cognitive Sciences ( ¿Cómo explica la ciencia cognitiva la intencionalidad distante y la función cerebral en los receptores? ), Que considera otro ejemplo de "un dardo golpeando al gato". Sin embargo, el artículo de Wagenmakers y sus colegas comenta directamente sobre un verdadero "aullador": fue publicado en JPSP (una de las revistas más grandes en psicología) Hace unos pocos años. También argumentan más en general a favor del análisis bayesiano y que:
Probablemente no necesito decirte que esto no fue exactamente una predicación al coro. FWIW, también hay una refutación (como siempre parece haber entre bayesianos y frecuentistas; ( Bem, Utts, & Johnson, 2011 ) , pero tengo la sensación de que no se cerró exactamente el debate .
La psicología como comunidad científica ha tenido un poco de réplica recientemente, en parte debido a esta y otras deficiencias metodológicas de alto perfil. Otros comentarios aquí apuntan a casos similares a lo que antes se conocían como correlaciones de vudú en la neurociencia social (¿cómo es eso para BTW políticamente incorrecto? El documento ha sido retitulado; Vul, Harris, Winkielman y Pashler, 2009 ). Eso también atrajo su refutación , que puede ver para más debate sobre prácticas altamente discutibles.
Para obtener aún más entretenimiento educativo a expensas (más despersonalizadas) de los (pseudo) estadísticos que se comportan mal, vea nuestra octava pregunta más votada aquí en CV con otro título (incorrecto) políticamente incorrecto, " ¿Qué son los pecados estadísticos comunes? " Su OP @MikeLawrence atribuye su inspiración a su estudio paralelo de psicología y estadística. Es uno de mis favoritos personales, y sus respuestas son muy útiles para evitar los innumerables escollos que existen.
En lo personal, he pasado gran parte de mis últimos cinco meses aquí en gran medida porque es increíblemente difícil obtener estadísticas sólidas sobre ciertas preguntas analíticas de datos. Francamente, la revisión por pares a menudo no es muy rigurosa en absoluto, especialmente en términos de escrutinio estadístico de la investigación en ciencias más jóvenes con preguntas complejas y muchas complicaciones epistémicas. Por lo tanto, he sentido la necesidad de asumir la responsabilidad personal de pulir los métodos en mi propio trabajo.
Mientras presentaba mi investigación de tesis , me di cuenta de la importancia de la responsabilidad personal para el escrutinio estadístico. Dos psicólogos excepcionales en mi alma mater intervinieron que estaba cometiendo uno de los pecados más básicos en mis interpretaciones de correlaciones. Me había pensado por encima de eso, y ya había enseñado a estudiantes universitarios varias veces sobre eso, pero aún así fui y me llamaron (desde el principio, gracias a Dios). ¡Fui allí porque la investigación que estaba revisando y replicando fue allí! Así terminé agregando varias secciones a mi disertación eso llamó a esos otros investigadores a asumir la causalidad de los estudios longitudinales cuasiexperimentales (a veces incluso de correlaciones transversales) e ignorar las explicaciones alternativas prematuramente.
Mi tesis fue aceptada sin revisiones por mi comité, que incluía a otro psicometrista excepcional y el que pronto sería presidente de SPSP (que publica JPSP), pero para ser sincero una vez más, no estoy presumiendo al decir esto. Desde entonces, he logrado perforar varios agujeros de conejo en mis propios métodos a pesar de pasar el proceso de revisión externa con revisores perfectamente buenos. Ahora he caído en el extremo profundo de las estadísticas al tratar de conectarlas con métodos más apropiados para el modelado predictivo de clasificaciones de Likert como SEM, IRT y análisis no paramétrico (consulte Pruebas de regresión después de la reducción de dimensiones) Estoy optando voluntariamente por pasar años en un artículo que probablemente podría publicar tal como está ... Creo que incluso me queda un estudio de simulación antes de poder proceder concienzudamente.
Sin embargo, enfatizo que esto es opcional, tal vez incluso demasiado celoso y un lujo costoso en medio de la cultura de publicar o perecer que a menudo enfatiza la cantidad sobre la calidad en los registros de trabajo de la primera carrera. La aplicación errónea de modelos paramétricos para datos continuos a distribuciones que violan los supuestos de datos ordinales es demasiado común en mi campo, al igual que la interpretación errónea y la tergiversación de la significación estadística (ver Acomodando vistas arraigadas de valores p ). Podría salirse con la suya (a corto plazo) ... y ni siquiera es tan difícil hacerlo mejor que eso. Sin embargo, supongo que tengo varios años recientes de increíbles avances en los programas de R para agradecer eso. Espero que los tiempos estén cambiando.
Referencias
· Bem, DJ, Utts, J. y Johnson, WO (2011). ¿Deben los psicólogos cambiar la forma en que analizan sus datos? Revista de Personalidad y Psicología Social, 101 (4), 716–719. Recuperado de http://deanradin.com/evidence/Bem2011.pdf .
· Vul, E., Harris, C., Winkielman, P. y Pashler, H. (2009). Correlaciones asombrosamente altas en los estudios de resonancia magnética funcional de la emoción, la personalidad y la cognición social. Perspectives on Psychological Science, 4 (3), 274–290. Recuperado de http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .
·Wagenmakers, EJ, Wetzels, R., Borsboom, D. y Van der Maas, H. (2011). Por qué los psicólogos deben cambiar la forma en que analizan sus datos: el caso de psi. Revista de Personalidad y Psicología Social, 100 , 426–432. Recuperado de http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf .
fuente
Recuerdo que en la universidad unos pocos estudiantes de ciencias sociales del último año preguntaron en diferentes ocasiones (uno de ellos obtuvo un 1er) cómo calcular un promedio para su proyecto que había tenido un puñado de puntos de datos. (Entonces no tenían problemas con el uso de software, solo con el concepto de cómo hacer las matemáticas con una calculadora).
Simplemente me miran en blanco cuando les pregunto qué tipo de promedio querían.
Sin embargo, todos sintieron la necesidad de incluir algunas estadísticas en su informe, ya que era lo que se había hecho. Espero que todos hayan leído 101 documentos que tenían estadísticas sin pensar en lo que significaban las estadísticas.
Está claro que al investigador que les enseñó durante los 3 años no le importó la exactitud de las estadísticas lo suficiente como para destilar cualquier comprensión a los estudiantes.
(Yo era un estudiante de ciencias de la computación en ese momento. Estoy publicando esto como respuesta, ya que es un poco largo para un comentario).
fuente
Como una lista lamentablemente incompleta, encuentro las estadísticas más frecuentemente correctas en 1) documentos de física seguidos de 2) documentos estadísticos y los más miserables en 3) documentos médicos. Las razones para esto son sencillas y tienen que ver con la integridad de los requisitos impuestos al modelo prototípico en cada campo.
En los documentos de física, las ecuaciones y las estadísticas aplicadas deben prestar atención a las unidades equilibradas y tener la ocurrencia más frecuente de relaciones causales y pruebas contra estándares físicos.
En estadística, 1) las unidades y la causalidad a veces se ignoran, los supuestos a veces son heurísticos, y las pruebas físicas se ignoran con demasiada frecuencia, pero la igualdad (o desigualdad), es decir, la lógica generalmente se conserva a lo largo de un camino inductivo, donde este último no puede corregir supuestos no físicos.
En medicina, generalmente se ignoran las unidades, las ecuaciones y suposiciones son típicamente heurísticas, típicamente no probadas y con frecuencia espurias.
Naturalmente, un campo como la mecánica estadística es más probable que tenga suposiciones comprobables que, digamos, economía, y eso no se refleja en el talento de los futuros autores en esos campos. Está más relacionado con cuánto de lo que se está haciendo es realmente comprobable y cuánto se ha hecho históricamente en cada campo.
fuente
Cualquier artículo que refuta la hipótesis nula nula está utilizando estadísticas sin valor (la gran mayoría de lo que he visto). Este proceso no puede proporcionar información no proporcionada por el tamaño del efecto. Además, no nos dice nada acerca de si un resultado significativo se debe realmente a la causa teorizada por el investigador. Esto requiere una investigación cuidadosa de los datos para evidencia de confusión. En la mayoría de los casos, si está presente, la evidencia más fuerte es incluso descartada como "valores atípicos".
No estoy tan familiarizado con la evolución / ecología, pero en el caso de la investigación psicológica y médica llamaría al nivel de comprensión estadística "severamente confundido" y "un obstáculo para el progreso científico". Se supone que las personas están refutando algo predicho por su teoría, no lo opuesto (diferencia / efecto cero).
Se han escrito miles de artículos sobre este tema. Busque la controversia híbrida NHST.
Editar: Y quiero decir que la prueba de significación de hipótesis nula nula tiene un valor científico máximo de cero. Esta persona golpea el clavo en la cabeza:
http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/
También: Paul Meehl. 1967. Pruebas de teoría en psicología y física: una paradoja metodológica
Edición 3:
Si alguien tiene argumentos a favor de la utilidad de Strawman NHST que no requieren pensar "rechace la hipótesis de que la tasa de calentamiento es la misma, pero NO tome esto para implicar que la tasa de calentamiento es la misma" es racional declaración, agradecería sus comentarios.
Edición 4:
¿Qué quiso decir Fisher con la siguiente cita? ¿Sugiere que pensó "Si el modelo / teoría A es incompatible con los datos, podemos decir que A es falso, pero nada sobre si A no es verdadero"?
Karl Pearson y RA Fisher en pruebas estadísticas: un intercambio de 1935 de la naturaleza
¿Es que asumió que la gente solo trataría de invalidar hipótesis plausibles en lugar de hombres de paja? ¿O estoy equivocado?
fuente