La frase p- hacking (también: "dragado de datos" , "espionaje" o "pesca") se refiere a varios tipos de negligencia estadística en la que los resultados se vuelven estadísticamente significativos de manera artificial. Hay muchas formas de obtener un resultado "más significativo", que incluyen pero no se limitan a:
- solo analizando un subconjunto "interesante" de los datos , en el que se encontró un patrón;
- no ajustarse adecuadamente para las pruebas múltiples , particularmente las pruebas post-hoc y no informar las pruebas realizadas que no fueron significativas;
- probar diferentes pruebas de la misma hipótesis , por ejemplo, tanto una prueba paramétrica como una no paramétrica ( hay un poco de discusión al respecto en este hilo ), pero solo informa la más significativa;
- experimentando con la inclusión / exclusión de puntos de datos , hasta obtener el resultado deseado. Una oportunidad se presenta cuando los "valores atípicos de limpieza de datos", pero también cuando se aplica una definición ambigua (por ejemplo, en un estudio econométrico de "países desarrollados", las diferentes definiciones producen diferentes conjuntos de países) o criterios de inclusión cualitativa (por ejemplo, en un metanálisis , puede ser un argumento finamente equilibrado si la metodología de un estudio en particular es lo suficientemente robusta como para incluirla);
- el ejemplo anterior está relacionado con la detención opcional , es decir, analizar un conjunto de datos y decidir si se recopilan más datos o no, dependiendo de los datos recopilados hasta ahora ("esto es casi significativo, ¡midamos tres estudiantes más!") sin tener en cuenta esto en el analisis;
- experimentación durante el ajuste del modelo , particularmente las covariables para incluir, pero también con respecto a las transformaciones de datos / forma funcional.
Por lo que sabemos p -hacking se puede hacer. A menudo se enumera como uno de los "peligros del valor p " y se mencionó en el informe ASA sobre significación estadística, discutido aquí en Cross Validated , por lo que también sabemos que es una mala cosa. Aunque son obvias algunas motivaciones dudosas y (particularmente en la competencia por la publicación académica) incentivos contraproducentes, sospecho que es difícil entender por qué se hace, ya sea negligencia deliberada o simple ignorancia. Alguien que informa valores p de una regresión gradual (porque encuentra que los procedimientos escalonados "producen buenos modelos", pero no son conscientes de la supuesta p-valores son invalidados) está en el campo de este último, pero el efecto es aún p -hacking bajo el último de mis puntos anteriores.
Ciertamente hay evidencia de que el hackeo p está "ahí afuera", por ejemplo, Head et al (2015) buscan signos reveladores de que infecte la literatura científica, pero ¿cuál es el estado actual de nuestra base de evidencia al respecto? Soy consciente de que el enfoque adoptado por Head et al no estuvo exento de controversia, por lo que el estado actual de la literatura, o el pensamiento general en la comunidad académica, sería interesante. Por ejemplo, ¿tenemos alguna idea sobre:
- ¿Qué tan frecuente es y en qué medida podemos diferenciar su ocurrencia del sesgo de publicación ? (¿Es esta distinción incluso significativa?)
- ¿Es el efecto particularmente agudo en el límite ? ¿Se ven efectos similares en p ≈ 0.01 , por ejemplo, o vemos rangos enteros de valores de p afectados?
- ¿Los patrones en p- hacking varían entre los campos académicos?
- ¿Tenemos alguna idea de cuáles de los mecanismos de p- hacking (algunos de los cuales se enumeran en los puntos anteriores) son los más comunes? ¿Algunas formas han resultado más difíciles de detectar que otras porque están "mejor disfrazadas"?
Referencias
Head, ML, Holman, L., Lanfear, R., Kahn, AT y Jennions, MD (2015). El alcance y las consecuencias de p- hacking en la ciencia . PLoS Biol , 13 (3), e1002106.
Respuestas:
RESUMEN EJECUTIVO: si el "p-hacking" debe entenderse ampliamente como caminos de bifurcación de la Gelman, la respuesta a su prevalencia es que es casi universal.
A Andrew Gelman le gusta escribir sobre este tema y últimamente ha publicado mucho sobre él en su blog. No siempre estoy de acuerdo con él, pero me gusta su perspectiva sobrepags hacking. Aquí hay un extracto del documento Introducción a su Jardín de caminos bifurcados (Gelman & Loken 2013; apareció una versión en American Scientist 2014; ver también el breve comentario de Gelman sobre la declaración de la ASA), énfasis mío:
Entonces: a Gelman no le gusta el término p-hacking porque implica que las investigaciones estaban haciendo trampa activamente. Mientras que los problemas pueden ocurrir simplemente porque los investigadores eligen qué prueba realizar / informar después de mirar los datos, es decir, después de hacer un análisis exploratorio.
Entonces, si el "pirateo" debe entenderse en términos generales como caminos de bifurcación de la Gelman, la respuesta a su prevalencia es que es casi universal.
Las únicas excepciones que vienen a la mente son los estudios de replicación totalmente prerregistrados en psicología o los ensayos médicos totalmente prerregistrados.
Evidencia específica
Divertidamente, algunas personas encuestaron a los investigadores para descubrir que muchos admiten haber hecho algún tipo de piratería ( John et al. 2012, Midiendo la prevalencia de prácticas de investigación cuestionables con incentivos para decir la verdad ):
Aparte de eso, todos escucharon sobre la llamada "crisis de replicación" en psicología: más de la mitad de los estudios recientes publicados en las principales revistas de psicología no se replican ( Nosek et al. 2015, Estimación de la reproducibilidad de la ciencia psicológica ). (Este estudio ha estado recientemente en todos los blogs nuevamente, porque la edición de marzo de 2016 de Science publicó un comentario que intentaba refutar a Nosek et al. Y también una respuesta de Nosek et al. La discusión continuó en otro lugar, vea la publicación de Andrew Gelman y el Mensaje de RetractionWatch al que se vincula. Para decirlo cortésmente, la crítica no es convincente).
Actualización de noviembre de 2018: Kaplan e Irvin, 2017, la probabilidad de efectos nulos de grandes ensayos clínicos de NHLBI ha aumentado con el tiempo muestra que la fracción de ensayos clínicos que informan resultados nulos aumentó del 43% al 92% después de que se requirió el prerregistro:
Head y col. 2015
No he oído hablar de Head et al. estudié antes, pero ahora he pasado un tiempo mirando la literatura circundante. También he echado un vistazo a sus datos en bruto .
Y aparte de eso, el efecto es pequeño .
Mascicampo y Lalande
Esto parece impresionante, pero Lakens 2015 ( preimpresión ) en un comentario publicado argumenta que esto solo parece impresionante gracias al ajuste exponencial engañoso. Ver también Lakens 2015, Sobre los desafíos de sacar conclusiones de los valores p justo por debajo de 0.05 y referencias allí.
Ciencias económicas
¿Falsamente tranquilizador?
Uri Simonsohn argumenta que esto es "falsamente tranquilizador" . Bueno, en realidad cita estos documentos de manera poco crítica, pero luego comenta que "la mayoría de los valores p son mucho más pequeños" que 0.05. Luego dice: "Eso es tranquilizador, pero falsamente tranquilizador". Y aquí está el por qué:
Conclusiones
fuente
simply because the researches chose what test to perform/report after looking at the data
Si; y el problema es inevitable porque tiene doble filo. Cuando se elige un método mejor para los datos, ¿es un sobreajuste de esa muestra específica o una reunión de llamadas técnicas de esa población? O, eliminando los valores atípicos, ¿está fingiendo a la población o recuperándola? ¿Quién dirá, en última instancia?Los gráficos en embudo (funnel plot) han sido una tremenda innovación estadística que convirtió el metaanálisis en su cabeza. Básicamente, un gráfico en embudo muestra la importancia clínica y estadística en el mismo gráfico. Idealmente, formarían una forma de embudo. Sin embargo, varios metanálisis han producido gráficos en embudo que muestran una forma bimodal fuerte, donde los investigadores (o editores) retuvieron selectivamente los resultados que eran nulos. El resultado es que el triángulo se ensancha, porque los estudios más pequeños y menos potentes utilizaron métodos más drásticos para "alentar" los resultados a alcanzar significación estadística. El equipo del Informe Cochrane tiene esto que decir sobre ellos .
La primera trama muestra una trama simétrica en ausencia de sesgo. El segundo muestra una trama asimétrica en presencia de sesgo de informe. El tercero muestra una gráfica asimétrica en presencia de sesgo porque algunos estudios más pequeños (círculos abiertos) son de menor calidad metodológica y, por lo tanto, producen estimaciones exageradas del efecto de intervención.
Sospecho que la mayoría de los autores desconocen los métodos que utilizan para piratear. No realizan un seguimiento del número total de modelos que se ajustan, aplicando diferentes criterios de exclusión u optando por diferentes variables de ajuste cada vez. Sin embargo, si tuviera que ordenar un proceso simple, me encantaría ver cómo encaja el número total de modelos. Eso no quiere decir que podría haber razones legítimas para volver a ejecutar modelos, por ejemplo, acabamos de realizar un análisis de Alzheimer sin saber que se había recolectado ApoE en la muestra. Huevo en mi cara, volvimos a colocar a las modelos.
fuente