Soy muy nuevo en las estadísticas y estoy aprendiendo a comprender los conceptos básicos, incluidos los valores . Pero hay un gran signo de interrogación en mi mente en este momento, y espero que mi comprensión sea incorrecta. Aquí está mi proceso de pensamiento:
¿No son todas las investigaciones en todo el mundo algo así como los monos en el "teorema del mono infinito"? Considere que hay 23887 universidades en el mundo. Si cada universidad tiene 1000 estudiantes, son 23 millones de estudiantes cada año.
Digamos que cada año, cada estudiante realiza al menos una investigación, utilizando pruebas de hipótesis con .
¿No significa eso que incluso si todas las muestras de investigación se obtuvieran de una población aleatoria, alrededor del 5% de ellas "rechazarían la hipótesis nula como inválida"? Guau. Piénsalo. Eso es alrededor de un millón de trabajos de investigación por año que se publican debido a resultados "significativos".
Si así es como funciona, da miedo. Significa que gran parte de la "verdad científica" que damos por sentado se basa en pura aleatoriedad.
Un simple fragmento de código R parece apoyar mi comprensión:
library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]
Lo mismo ocurre con este artículo sobre el éxito -Pesca: Me deje engañar a millones a la Pensando chocolate ayuda a perder peso. He aquí cómo .
¿Es esto realmente todo lo que hay que hacer? ¿Es así como se supone que funciona la "ciencia"?
fuente
Respuestas:
Esto es ciertamente una preocupación válida, pero no es del todo correcto.
Si se realizan 1,000,000 de estudios y todas las hipótesis nulas son verdaderas , aproximadamente 50,000 tendrán resultados significativos en p <0.05. Eso es lo que significa valor p. Sin embargo, lo nulo esencialmente nunca es estrictamente cierto. Pero incluso si lo aflojamos a "casi cierto" o "sobre lo correcto" o algo así, eso significaría que los 1,000,000 de estudios tendrían que ser sobre cosas como
y así. Disparates.
Un problema es, por supuesto, que no sabemos qué valores nulos son ciertos. Otro problema es el que @Glen_b mencionó en su comentario: el problema del cajón de archivos.
Es por eso que me gustan tanto las ideas de Robert Abelson que él presenta en Estadísticas como argumento basado en principios . Es decir, la evidencia estadística debe ser parte de un argumento basado en principios de por qué algo es así y debe juzgarse según los criterios MÁGICOS:
fuente
Recuerde, los científicos NO son críticamente como monos infinitos, porque su comportamiento de investigación, particularmente la experimentación, es cualquier cosa menos aleatorio. Los experimentos son (al menos se supone que son) manipulaciones y mediciones increíblemente cuidadosamente controladas que se basan en hipótesis informadas mecánicamente que se basan en una gran cantidad de investigaciones previas. No son solo tomas aleatorias en la oscuridad (o dedos de mono en máquinas de escribir).
Esa estimación del número de hallazgos de investigación publicados tiene que estar muy lejos. No sé si hay 23 millones de "estudiantes universitarios" (¿eso solo incluye universidades o colegios también?) En el mundo, pero sé que la gran mayoría de ellos nunca publica ningún hallazgo científico. Quiero decir, la mayoría de ellos no son estudiantes de ciencias, e incluso la mayoría de los estudiantes de ciencias nunca publican resultados.
Una estimación más probable (algunos discusión ) para el número de publicaciones científicas cada año es de aproximadamente 1-2 millones.
Tenga en cuenta que no todas las investigaciones publicadas tienen estadísticas donde la significación es correcta en el valor p = 0.05. A menudo se ven valores de p como p <0.01 o incluso p <0.001. No sé cuál es el valor p "medio" de más de un millón de documentos, por supuesto.
También tenga en cuenta que los científicos son que no se supone que los tomen una pequeña cantidad de resultados en p alrededor de 0.05 como "verdad científica". Ni siquiera cerca. Se supone que los científicos deben integrarse en muchos estudios, cada uno de los cuales tiene un poder estadístico apropiado, mecanismo plausible, reproducibilidad, magnitud del efecto, etc., e incorporarlo en un modelo tentativo de cómo funciona algún fenómeno.
Pero, ¿significa esto que casi toda la ciencia es correcta? De ninguna manera. Los científicos son humanos y son víctimas de los prejuicios, la mala metodología de investigación (incluidos los enfoques estadísticos inadecuados), el fraude, el simple error humano y la mala suerte. Probablemente más dominante en por qué una porción saludable de la ciencia publicada está equivocada son estos factores en lugar de la convención p <0.05. De hecho, pasemos directamente al grano y hagamos una declaración aún más "aterradora" que la que usted ha presentado:
Por qué los hallazgos de investigación más publicados son falsos
fuente
Vea, por ejemplo, esta discusión reciente de un artículo de 2014 de David Colquhoun: Confusión con tasa de descubrimiento falso y pruebas múltiples (en Colquhoun 2014) . He estado argumentando en contra de esta estimación de "al menos 30%", pero estoy de acuerdo en que en algunos campos de investigación la tasa de falsos descubrimientos puede ser mucho más alta que 5%. Esto es realmente preocupante.
No creo que decir que nulo casi nunca sea cierto ayuda aquí; Los errores de tipo S y tipo M (según lo introducido por Andrew Gelman) no son mucho mejores que los errores de tipo I / II.
Creo que lo que realmente significa es que uno nunca debe confiar en un resultado "significativo" aislado.
fuente
Su preocupación es exactamente la preocupación que subyace en gran parte de la discusión actual en la ciencia sobre la reproducibilidad. Sin embargo, el verdadero estado de cosas es un poco más complicado de lo que sugiere.
Primero, establezcamos alguna terminología. La prueba de significancia de hipótesis nula puede entenderse como un problema de detección de señal: la hipótesis nula es verdadera o falsa, y puede elegir rechazarla o retenerla. La combinación de dos decisiones y dos posibles estados de cosas "verdaderos" da como resultado la siguiente tabla, que la mayoría de las personas ve en algún momento cuando aprenden estadísticas por primera vez:
Los científicos que usan pruebas de significación de hipótesis nulas intentan maximizar el número de decisiones correctas (que se muestran en azul) y minimizar el número de decisiones incorrectas (que se muestran en rojo). Los científicos que trabajan también están tratando de publicar sus resultados para que puedan obtener empleos y avanzar en sus carreras.
El sesgo de publicación
La cuestión general de la probabilidad de publicación depende de la observadapags valor es lo que se entiende por sesgo de publicación . Si damos un paso atrás y pensamos en las implicaciones del sesgo de publicación para una literatura de investigación más amplia, una literatura de investigación afectada por el sesgo de publicación aún contendrá resultados verdaderos , a veces la hipótesis nula de que un científico afirma ser falso realmente será falsa, y, dependiendo del grado de sesgo de publicación, a veces un científico afirmará correctamente que una hipótesis nula dada es verdadera. Sin embargo, la literatura de investigación también estará abarrotada por una proporción demasiado grande de falsos positivos (es decir, estudios en los que el investigador afirma que la hipótesis nula es falsa cuando realmente es verdad).
Investigador grados de libertad
Es importante tener en cuenta que el uso indebido de los grados de libertad del investigador (que a veces se conoce como una práctica de investigación cuestionable; Martinson, Anderson y de Vries, 2005 ) no es lo mismo que inventar datos. En algunos casos, excluir los valores atípicos es lo correcto, ya sea porque el equipo falla o por alguna otra razón. La cuestión clave es que, en presencia de los grados de libertad del investigador, las decisiones tomadas durante el análisis a menudo dependen de cómo resultan los datos ( Gelman y Loken, 2014), incluso si los investigadores en cuestión no son conscientes de este hecho. Mientras los investigadores usen los grados de libertad del investigador (consciente o inconscientemente) para aumentar la probabilidad de un resultado significativo (quizás porque los resultados significativos son más "publicables"), la presencia de grados de libertad del investigador sobrepoblará una literatura de investigación con falsos positivos en de la misma manera que el sesgo de publicación.
Una advertencia importante a la discusión anterior es que los artículos científicos (al menos en psicología, que es mi campo) rara vez consisten en resultados únicos. Más comunes son los estudios múltiples, cada uno de los cuales involucra múltiples pruebas: el énfasis está en construir un argumento más amplio y descartar explicaciones alternativas para la evidencia presentada. Sin embargo, la presentación selectiva de resultados (o la presencia de grados de libertad del investigador) puede producir sesgos en un conjunto de resultados tan fácilmente como un solo resultado. Existe evidencia de que los resultados presentados en documentos de estudios múltiples a menudo son mucho más limpios y fuertes de lo que cabría esperar, incluso si todas las predicciones de estos estudios fueran ciertas ( Francis, 2013 ).
Conclusión
Fundamentalmente, estoy de acuerdo con su intuición de que las pruebas de significación de hipótesis nulas pueden salir mal. Sin embargo, diría que los verdaderos culpables que producen una alta tasa de falsos positivos son procesos como el sesgo de publicación y la presencia de grados de libertad de los investigadores. De hecho, muchos científicos son conscientes de estos problemas, y mejorar la reproducibilidad científica es un tema de debate actual muy activo (por ejemplo, Nosek y Bar-Anan, 2012 ; Nosek, Spies y Motyl, 2012 ). Entonces, está en buena compañía con sus preocupaciones, pero también creo que también hay razones para un optimismo cauteloso.
Referencias
Stern, JM y Simes, RJ (1997). Sesgo de publicación: evidencia de publicación tardía en un estudio de cohorte de proyectos de investigación clínica. BMJ, 315 (7109), 640–645. http://doi.org/10.1136/bmj.315.7109.640
Dwan, K., Altman, DG, Arnaiz, JA, Bloom, J., Chan, A., Cronin, E., ... Williamson, PR (2008). Revisión sistemática de la evidencia empírica del sesgo de publicación del estudio y el sesgo de informe de resultados. PLoS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081
Rosenthal, R. (1979). El problema del cajón de archivos y la tolerancia para resultados nulos. Boletín psicológico, 86 (3), 638–641. http://doi.org/10.1037/0033-2909.86.3.638
Simmons, JP, Nelson, LD y Simonsohn, U. (2011). Psicología falsa positiva: la flexibilidad no revelada en la recopilación y análisis de datos permite presentar cualquier cosa como significativa. Psychological Science, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632
Martinson, BC, Anderson, MS y De Vries, R. (2005). Los científicos se portan mal. Nature, 435, 737–738. http://doi.org/10.1038/435737a
Gelman, A. y Loken, E. (2014). La crisis estadística en la ciencia. Científico estadounidense, 102, 460-465.
Francis, G. (2013). Replicación, consistencia estadística y sesgo de publicación. Revista de psicología matemática, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003
Nosek, BA y Bar-Anan, Y. (2012). Utopía científica: I. Apertura de la comunicación científica. Consulta psicológica, 23 (3), 217–243. http://doi.org/10.1080/1047840X.2012.692215
Nosek, BA, Spies, JR y Motyl, M. (2012). Utopía científica: II. Reestructuración de incentivos y prácticas para promover la verdad sobre la publicabilidad. Perspectivas sobre la ciencia psicológica, 7 (6), 615–631. http://doi.org/10.1177/1745691612459058
fuente
Una verificación sustancial sobre el importante tema planteado en esta pregunta es que la "verdad científica" no se basa en publicaciones individuales aisladas. Si un resultado es suficientemente interesante, incitará a otros científicos a buscar las implicaciones del resultado. Ese trabajo tenderá a confirmar o refutar el hallazgo original. Puede haber una probabilidad de 1/20 de rechazar una hipótesis nula verdadera en un estudio individual, pero solo 1/400 de hacerlo dos veces seguidas.
Si los científicos simplemente repiten los experimentos hasta que encuentran "importancia" y luego publican sus resultados, el problema podría ser tan grande como sugiere el OP. Pero no es así como funciona la ciencia, al menos en mis casi 50 años de experiencia en investigación biomédica. Además, una publicación rara vez trata sobre un solo experimento "significativo", sino que se basa en un conjunto de experimentos relacionados entre sí (cada uno debe ser "significativo" por sí solo) que en conjunto brindan apoyo para una hipótesis más amplia y sustantiva.
Un problema mucho mayor proviene de científicos que están demasiado comprometidos con sus propias hipótesis. Luego pueden interpretar en exceso las implicaciones de los experimentos individuales para respaldar sus hipótesis, participar en la edición de datos dudosos (como eliminar arbitrariamente los valores atípicos) o (como he visto y ayudado a atrapar) simplemente inventar los datos.
La ciencia, sin embargo, es un proceso altamente social, independientemente de la mitología sobre los científicos locos que se esconden en las torres de marfil. El toma y daca entre miles de científicos que persiguen sus intereses, en base a lo que han aprendido del trabajo de otros, es la máxima protección institucional contra los falsos positivos. Los resultados falsos a veces pueden perpetuarse durante años, pero si un problema es lo suficientemente importante, el proceso eventualmente identificará las conclusiones erróneas.
fuente
Solo para agregar a la discusión, aquí hay una publicación interesante y una discusión posterior sobre cómo las personas comúnmente malinterpretan el valor p.
Lo que debe mantenerse en cualquier caso es que un valor p es solo una medida de la fuerza de la evidencia para rechazar una hipótesis dada. Un valor p definitivamente no es un umbral duro por debajo del cual algo es "verdadero" y por encima del cual solo se debe al azar. Como se explica en la publicación mencionada anteriormente:
fuente
Como también se señaló en las otras respuestas, esto solo causará problemas si va a considerar selectivamente los resultados positivos donde se descarta la hipótesis nula. Esta es la razón por la cual los científicos escriben artículos de revisión en los que consideran los resultados de investigaciones publicados anteriormente y tratan de desarrollar una mejor comprensión del tema en función de eso. Sin embargo, sigue existiendo un problema, que se debe al llamado "sesgo de publicación", es decir, es más probable que los científicos escriban un artículo sobre un resultado positivo que sobre un resultado negativo, también un documento sobre un resultado negativo es más probabilidades de ser rechazado para su publicación que un documento sobre un resultado positivo.
Especialmente en los campos donde las pruebas estadísticas son muy importantes, si esto es un gran problema, el campo de la medicina es un ejemplo notorio. Es por esto que se hizo obligatorio registrar los ensayos clínicos antes de que se realicen (por ejemplo, aquí ). Por lo tanto, debe explicar la configuración, cómo se realizará el análisis estadístico, etc., etc., antes de que comience el ensayo. Las principales revistas médicas se negarán a publicar artículos si los ensayos que informan no se registraron.
Desafortunadamente, a pesar de esta medida, el sistema no funciona tan bien .
fuente
Esto está cerca de un hecho muy importante sobre el método científico: enfatiza la falsabilidad. La filosofía de la ciencia que es más popular hoy en día tiene el concepto de falsabilidad de Karl Popper. como piedra angular.
El proceso científico básico es así:
Cualquiera puede reclamar cualquier teoría que desee, en cualquier momento. La ciencia admitirá cualquier teoría que sea "falsificable". El sentido más literal de esa palabra es que, si a alguien más no le gusta el reclamo, esa persona es libre de gastar los recursos para refutar el reclamo. Si no crees que los calcetines de argyle curan el cáncer, puedes usar tu propia sala médica para refutarlo.
Debido a que esta barra de entrada es monumentalmente baja, es tradicional que la "Ciencia" como grupo cultural realmente no entretenga ninguna idea hasta que haya hecho un "buen esfuerzo" para falsificar su propia teoría.
La aceptación de ideas tiende a ir en etapas. Puede incluir su concepto en un artículo de revista con un estudio y un valor p bastante bajo. Lo que sí te compra es publicidad y cierta credibilidad. Si alguien está interesado en su idea, como si su ciencia tiene aplicaciones de ingeniería, es posible que desee utilizarla. En ese momento, es más probable que financien una ronda adicional de falsificación.
Este proceso avanza, siempre con la misma actitud: cree lo que quieras, pero para llamarlo ciencia, necesito poder refutarlo más tarde.
Esta barra baja de entrada es lo que le permite ser tan innovador. Entonces, sí, hay una gran cantidad de artículos de revistas teóricamente "equivocados". Sin embargo, la clave es que cada artículo publicado es en teoría falsificable, por lo que en cualquier momento, alguien podría gastar el dinero para probarlo.
Esta es la clave: los diarios contienen no solo cosas que pasan una prueba p razonable, sino que también contienen las claves para que otros la desmantelen si los resultados resultan ser falsos.
fuente
Así es como funcionan muchas ciencias sociales. No tanto con las ciencias físicas. Piensa en esto: escribiste tu pregunta en una computadora. Las personas pudieron construir estas complicadas bestias llamadas computadoras usando el conocimiento de la física, la química y otros campos de las ciencias físicas. Si la situación fuera tan mala como la describe, ninguno de los componentes electrónicos funcionaría. O piense en cosas como la masa de un electrón, que se conoce con una precisión increíble. Pasan a través de miles de millones de puertas lógicas en una computadora durante un over, y su computadora aún funciona y funciona durante años.
ACTUALIZACIÓN: Para responder a los votos negativos que recibí, me sentí inspirado para darle un par de ejemplos.
El primero es de física: Bystritsky, VM, et al. " Medición de los factores astrofísicos S y las secciones transversales de la reacción p (d, γ) 3He en la región de energía ultrabaja utilizando un objetivo de deuteruro de circonio ". Physics of Particles and Nuclei Letters 10.7 (2013): 717-722.
Mi próximo ejemplo es de ... psicología: Paustian-Underdahl, Samantha C., Lisa Slattery Walker y David J. Woehr. " Género y percepciones de la efectividad del liderazgo: un metaanálisis de moderadores contextuales ". Revista de Psicología Aplicada, 2014, vol. 99, núm. 6, 1129-1145.
Ahora, mire algunas tablas de los papeles y adivine de qué papeles son:
Esa es la respuesta por qué en un caso necesita estadísticas "geniales" y en otro no: porque los datos son malos o no. Cuando tiene buenos datos, no necesita muchas estadísticas más allá de los errores estándar.
ACTUALIZACIÓN2: @ PatrickS.Forscher hizo una declaración interesante en el comentario:
Debo estar en desacuerdo. En economía y finanzas las teorías no son "blandas" en absoluto. Puede buscar aleatoriamente un documento en estos campos y obtener algo como esto:
y así.
Es de Schervish, Mark J., Teddy Seidenfeld y Joseph B. Kadane. " Extensiones de la teoría de la utilidad esperada y algunas limitaciones de las comparaciones por pares ". (2003) ¿Te parece suave?
Estoy reiterando mi punto aquí de que cuando sus teorías no son buenas y los datos son malos, puede usar las matemáticas más difíciles y aún así obtener un resultado malo.
En este artículo, hablan de servicios públicos, el concepto de felicidad y satisfacción, absolutamente inobservable. Es como lo que es una utilidad de tener una casa frente a comer una hamburguesa con queso? Presumiblemente existe esta función, donde puede conectar "comer hamburguesa con queso" o "vivir en su propia casa" y la función escupirá la respuesta en algunas unidades. Tan loco como suena, esto es en lo que se basa la tecnología moderna, gracias a von Neuman.
fuente