¿Cuánto sabemos sobre p-hacking "en la naturaleza"?

94

La frase p- hacking (también: "dragado de datos" , "espionaje" o "pesca") se refiere a varios tipos de negligencia estadística en la que los resultados se vuelven estadísticamente significativos de manera artificial. Hay muchas formas de obtener un resultado "más significativo", que incluyen pero no se limitan a:

  • solo analizando un subconjunto "interesante" de los datos , en el que se encontró un patrón;
  • no ajustarse adecuadamente para las pruebas múltiples , particularmente las pruebas post-hoc y no informar las pruebas realizadas que no fueron significativas;
  • probar diferentes pruebas de la misma hipótesis , por ejemplo, tanto una prueba paramétrica como una no paramétrica ( hay un poco de discusión al respecto en este hilo ), pero solo informa la más significativa;
  • experimentando con la inclusión / exclusión de puntos de datos , hasta obtener el resultado deseado. Una oportunidad se presenta cuando los "valores atípicos de limpieza de datos", pero también cuando se aplica una definición ambigua (por ejemplo, en un estudio econométrico de "países desarrollados", las diferentes definiciones producen diferentes conjuntos de países) o criterios de inclusión cualitativa (por ejemplo, en un metanálisis , puede ser un argumento finamente equilibrado si la metodología de un estudio en particular es lo suficientemente robusta como para incluirla);
  • el ejemplo anterior está relacionado con la detención opcional , es decir, analizar un conjunto de datos y decidir si se recopilan más datos o no, dependiendo de los datos recopilados hasta ahora ("esto es casi significativo, ¡midamos tres estudiantes más!") sin tener en cuenta esto en el analisis;
  • experimentación durante el ajuste del modelo , particularmente las covariables para incluir, pero también con respecto a las transformaciones de datos / forma funcional.

Por lo que sabemos p -hacking se puede hacer. A menudo se enumera como uno de los "peligros del valor p " y se mencionó en el informe ASA sobre significación estadística, discutido aquí en Cross Validated , por lo que también sabemos que es una mala cosa. Aunque son obvias algunas motivaciones dudosas y (particularmente en la competencia por la publicación académica) incentivos contraproducentes, sospecho que es difícil entender por qué se hace, ya sea negligencia deliberada o simple ignorancia. Alguien que informa valores p de una regresión gradual (porque encuentra que los procedimientos escalonados "producen buenos modelos", pero no son conscientes de la supuesta p-valores son invalidados) está en el campo de este último, pero el efecto es aún p -hacking bajo el último de mis puntos anteriores.

Ciertamente hay evidencia de que el hackeo p está "ahí afuera", por ejemplo, Head et al (2015) buscan signos reveladores de que infecte la literatura científica, pero ¿cuál es el estado actual de nuestra base de evidencia al respecto? Soy consciente de que el enfoque adoptado por Head et al no estuvo exento de controversia, por lo que el estado actual de la literatura, o el pensamiento general en la comunidad académica, sería interesante. Por ejemplo, ¿tenemos alguna idea sobre:

  • ¿Qué tan frecuente es y en qué medida podemos diferenciar su ocurrencia del sesgo de publicación ? (¿Es esta distinción incluso significativa?)
  • ¿Es el efecto particularmente agudo en el límite ? ¿Se ven efectos similares en p 0.01 , por ejemplo, o vemos rangos enteros de valores de p afectados?p0.05p0.01
  • ¿Los patrones en p- hacking varían entre los campos académicos?
  • ¿Tenemos alguna idea de cuáles de los mecanismos de p- hacking (algunos de los cuales se enumeran en los puntos anteriores) son los más comunes? ¿Algunas formas han resultado más difíciles de detectar que otras porque están "mejor disfrazadas"?

Referencias

Head, ML, Holman, L., Lanfear, R., Kahn, AT y Jennions, MD (2015). El alcance y las consecuencias de p- hacking en la ciencia . PLoS Biol , 13 (3), e1002106.

Lepisma
fuente
66
Su última pregunta es una buena idea para una investigación: proporcione algunos datos en bruto a un grupo de investigadores de diferentes campos, equípelos en SPSS (o lo que sea que usen) y luego registre lo que están haciendo mientras compiten entre sí para obtener resultados más significativos .
Tim
1
Uno podría hacerlo sin que los sujetos supieran que estaba sucediendo utilizando un historial de envíos de kaggle. No publican, pero intentan todas las formas posibles de alcanzar el número mágico.
EngrStudent
1
¿Crossvalidated tiene alguna colección (por ejemplo, wikis de la comunidad) de ejemplos simples de simulación de p-hacking? Me estoy imaginando ejemplos de juguetes en los que el investigador simulado reacciona a resultados "marginalmente significativos" al recopilar más datos, experimentos con especificaciones de regresión, etc.
Adrian
2
@Adrian CV es solo un sitio de preguntas y respuestas, no contiene ningún dato o código, no tiene ningún repositorio oculto; todo lo que encuentras en las respuestas es tuyo bajo licencia CC :) Esta pregunta parece estar preguntando sobre la recopilación de tales ejemplos.
Tim
1
@Tim, por supuesto, no estaba imaginando ningún repositorio de código oculto, solo fragmentos de código incluidos en las respuestas. Por ejemplo, alguien podría preguntar "¿qué es la piratería informática?", Y alguien podría incluir una simulación de juguete R en su respuesta. ¿Sería apropiado responder a la pregunta actual con ejemplos de código? "Cuánto sabemos" es una pregunta muy amplia.
Adrian

Respuestas:

76

RESUMEN EJECUTIVO: si el "p-hacking" debe entenderse ampliamente como caminos de bifurcación de la Gelman, la respuesta a su prevalencia es que es casi universal.


A Andrew Gelman le gusta escribir sobre este tema y últimamente ha publicado mucho sobre él en su blog. No siempre estoy de acuerdo con él, pero me gusta su perspectiva sobre p hacking. Aquí hay un extracto del documento Introducción a su Jardín de caminos bifurcados (Gelman & Loken 2013; apareció una versión en American Scientist 2014; ver también el breve comentario de Gelman sobre la declaración de la ASA), énfasis mío:

Este problema a veces se llama "p-hacking" o "grados de libertad de los investigadores" (Simmons, Nelson y Simonsohn, 2011). En un artículo reciente, hablamos de "expediciones de pesca [...]". Pero estamos empezando a sentir que el término "pescar" fue desafortunado, ya que invoca la imagen de un investigador probando comparación tras comparación, lanzando la línea al lago repetidamente hasta que un pez se engancha. No tenemos ninguna razón para pensar que los investigadores hagan eso regularmente. Creemos que la historia real es que los investigadores pueden realizar un análisis razonable dados sus supuestos y sus datos, pero si los datos hubieran sido diferentes, podrían haber hecho otros análisis que fueran igualmente razonables en esas circunstancias.

Lamentamos la difusión de los términos "pesca" y "piratería" (e incluso "grados de libertad del investigador") por dos razones: primero, porque cuando dichos términos se usan para describir un estudio, existe la implicación engañosa de que los investigadores estaban probando conscientemente muchos análisis diferentes en un solo conjunto de datos; y, segundo, porque puede llevar a los investigadores que saben que no probaron muchos análisis diferentes a pensar erróneamente que no están tan fuertemente sujetos a problemas de grados de libertad de los investigadores. [...] Nuestro punto clave aquí es que es posible tener múltiples comparaciones potenciales, en el sentido de un análisis de datos cuyos detalles dependen mucho de los datos, sin que el investigador realice ningún procedimiento consciente de pesca o examine múltiples valores p .

Entonces: a Gelman no le gusta el término p-hacking porque implica que las investigaciones estaban haciendo trampa activamente. Mientras que los problemas pueden ocurrir simplemente porque los investigadores eligen qué prueba realizar / informar después de mirar los datos, es decir, después de hacer un análisis exploratorio.

p

Entonces, si el "pirateo" debe entenderse en términos generales como caminos de bifurcación de la Gelman, la respuesta a su prevalencia es que es casi universal.

Las únicas excepciones que vienen a la mente son los estudios de replicación totalmente prerregistrados en psicología o los ensayos médicos totalmente prerregistrados.

Evidencia específica

Divertidamente, algunas personas encuestaron a los investigadores para descubrir que muchos admiten haber hecho algún tipo de piratería ( John et al. 2012, Midiendo la prevalencia de prácticas de investigación cuestionables con incentivos para decir la verdad ):

John et al.

Aparte de eso, todos escucharon sobre la llamada "crisis de replicación" en psicología: más de la mitad de los estudios recientes publicados en las principales revistas de psicología no se replican ( Nosek et al. 2015, Estimación de la reproducibilidad de la ciencia psicológica ). (Este estudio ha estado recientemente en todos los blogs nuevamente, porque la edición de marzo de 2016 de Science publicó un comentario que intentaba refutar a Nosek et al. Y también una respuesta de Nosek et al. La discusión continuó en otro lugar, vea la publicación de Andrew Gelman y el Mensaje de RetractionWatch al que se vincula. Para decirlo cortésmente, la crítica no es convincente).

Actualización de noviembre de 2018: Kaplan e Irvin, 2017, la probabilidad de efectos nulos de grandes ensayos clínicos de NHLBI ha aumentado con el tiempo muestra que la fracción de ensayos clínicos que informan resultados nulos aumentó del 43% al 92% después de que se requirió el prerregistro:

ingrese la descripción de la imagen aquí


P

Head y col. 2015

No he oído hablar de Head et al. estudié antes, pero ahora he pasado un tiempo mirando la literatura circundante. También he echado un vistazo a sus datos en bruto .

p=ap<a00.06

Distribución de los valores p en la literatura.

0.0001pp(0.045,0.5)(0.04,0.045)p

p=0.05p=0.048p=0.052p0.05

Y aparte de eso, el efecto es pequeño .

p0.05

p

p=0.04p=0.05p

p

ptFχ2

Papel Hartgerink PeerJ

pp

Krawczyk

p=0.05p0.05p

Mascicampo y Lalande

p

Mascicampo y Lalande

Esto parece impresionante, pero Lakens 2015 ( preimpresión ) en un comentario publicado argumenta que esto solo parece impresionante gracias al ajuste exponencial engañoso. Ver también Lakens 2015, Sobre los desafíos de sacar conclusiones de los valores p justo por debajo de 0.05 y referencias allí.

Ciencias económicas

zp

Brodeur

ppp<0.05


¿Falsamente tranquilizador?

ppp0.050.05

Uri Simonsohn argumenta que esto es "falsamente tranquilizador" . Bueno, en realidad cita estos documentos de manera poco crítica, pero luego comenta que "la mayoría de los valores p son mucho más pequeños" que 0.05. Luego dice: "Eso es tranquilizador, pero falsamente tranquilizador". Y aquí está el por qué:

Si queremos saber si los investigadores piratean sus resultados, necesitamos examinar los valores p asociados con sus resultados, aquellos que pueden querer piratear en primer lugar. Las muestras, para ser imparciales, solo deben incluir observaciones de la población de interés.

La mayoría de los valores p informados en la mayoría de los documentos son irrelevantes para el comportamiento estratégico de interés. Covariables, verificaciones de manipulación, efectos principales en estudios que prueban interacciones, etc. Incluyéndolos, subestimamos el p-hacking y sobreestimamos el valor probatorio de los datos. Analizar todos los valores p hace una pregunta diferente, una menos sensible. En lugar de "¿Los investigadores piratean lo que estudian?" Preguntamos "¿Los investigadores piratean todo?"

pppp

Simonsohn

p

Conclusiones

pp p0.05

ameba
fuente
44
simply because the researches chose what test to perform/report after looking at the dataSi; y el problema es inevitable porque tiene doble filo. Cuando se elige un método mejor para los datos, ¿es un sobreajuste de esa muestra específica o una reunión de llamadas técnicas de esa población? O, eliminando los valores atípicos, ¿está fingiendo a la población o recuperándola? ¿Quién dirá, en última instancia?
ttnphns
El tipo de respuesta que más esperaba era quizás una breve representación de la literatura actual, algunos consejos sobre si el documento de Head et al es un resumen justo de las últimas ideas, etc. No esperaba esta respuesta en absoluto. Pero creo que es genial, y los pensamientos y las ideas prácticas de Gelman son particularmente útiles. Cuando escribí la pregunta tenía en mente cosas similares a @ttnphns (tal vez se nota, incluso consideré incluir la palabra "sobreajuste").
Silverfish
Sin embargo, aparte del malestar general e ineludible de "cómo funciona la ciencia en la práctica" como una combinación imperfecta para los supuestos de las pruebas estadísticas, me pregunto si este hombre del saco "el arte oscuro de los piratas informáticos maliciosos" está realmente ahí fuera, y si es así, hasta dónde llega. Definitivamente hay fuertes (malos) incentivos para alentarlo.
Silverfish
2
Me tienes curiosidad con esto Head et al. paper, @Silverfish, así que debo confesar que ahora, en lugar de trabajar, estoy hojeando algunos periódicos criticando los resultados de Head et al. e incluso ya he descargado sus datos en bruto ... Oh, Dios mío.
ameba
2
+1. El último artículo del blog Gelman ( andrewgelman.com/2016/03/09/… ) cubre mucho terreno y destaca una interesante réplica de un grupo que intentó replicaciones y luego fue fuertemente criticado por los autores del estudio original: retractionwatch.com/ 2016/03/07 /…
Wayne
22

Los gráficos en embudo (funnel plot) han sido una tremenda innovación estadística que convirtió el metaanálisis en su cabeza. Básicamente, un gráfico en embudo muestra la importancia clínica y estadística en el mismo gráfico. Idealmente, formarían una forma de embudo. Sin embargo, varios metanálisis han producido gráficos en embudo que muestran una forma bimodal fuerte, donde los investigadores (o editores) retuvieron selectivamente los resultados que eran nulos. El resultado es que el triángulo se ensancha, porque los estudios más pequeños y menos potentes utilizaron métodos más drásticos para "alentar" los resultados a alcanzar significación estadística. El equipo del Informe Cochrane tiene esto que decir sobre ellos .

Si hay sesgo, por ejemplo, porque los estudios más pequeños sin efectos estadísticamente significativos (mostrados como círculos abiertos en la Figura 10.4.a, Panel A) permanecen inéditos, esto conducirá a una apariencia asimétrica del gráfico en embudo con un espacio en la esquina inferior de el gráfico (Panel B). En esta situación, el efecto calculado en un metanálisis tenderá a sobrestimar el efecto de la intervención (Egger 1997a, Villar 1997). Cuanto más pronunciada es la asimetría, más probable es que la cantidad de sesgo sea sustancial.

La primera trama muestra una trama simétrica en ausencia de sesgo. El segundo muestra una trama asimétrica en presencia de sesgo de informe. El tercero muestra una gráfica asimétrica en presencia de sesgo porque algunos estudios más pequeños (círculos abiertos) son de menor calidad metodológica y, por lo tanto, producen estimaciones exageradas del efecto de intervención.

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Sospecho que la mayoría de los autores desconocen los métodos que utilizan para piratear. No realizan un seguimiento del número total de modelos que se ajustan, aplicando diferentes criterios de exclusión u optando por diferentes variables de ajuste cada vez. Sin embargo, si tuviera que ordenar un proceso simple, me encantaría ver cómo encaja el número total de modelos. Eso no quiere decir que podría haber razones legítimas para volver a ejecutar modelos, por ejemplo, acabamos de realizar un análisis de Alzheimer sin saber que se había recolectado ApoE en la muestra. Huevo en mi cara, volvimos a colocar a las modelos.

AdamO
fuente
44
2
Un aspecto de mi pregunta fue la distinción entre "p-hacking" y "sesgo de publicación": esta respuesta de alguna manera combina los dos. ¿Tendría razón para interpretar lo que está diciendo de esa manera, es decir, "el sesgo de publicación es, en esencia, una forma de pirateo informático, pero por parte del editor"?
Silverfish
1
pp
2
Hmm Primero, quería protestar y afirmar que el sesgo de publicación es diferente del pirateo informático (de manera similar, creo, a cómo @Silverfish también enmarcó su Q), pero luego me di cuenta de que es más difícil trazar el límite de lo que pensé originalmente. Realizar comparaciones múltiples al estilo Jelly-beans y solo informar las significativas (¿p-hacking?) No es muy diferente de realizar múltiples estudios y solo informar las significativas (que es sesgo de publicación por definición). Aún así, hackear p en el sentido de masajear los datos hasta que produzcan p <0.05 me parece lo suficientemente diferente.
ameba
2
pp métodos de hacking generalmente se omiten de los informes. Entonces, habiendo sido cegado a lo que hace el estadístico, ¿cómo podemos reconciliar las diferencias? Bueno, necesitamos intentos independientes para replicar y confirmar los hallazgos.
AdamO