¿Qué causa la discontinuidad en la distribución de los valores p publicados en p <.05?

27

En un artículo reciente , Masicampo y Lalande (ML) recolectaron una gran cantidad de valores p publicados en muchos estudios diferentes. Observaron un curioso salto en el histograma de los valores p justo en el nivel crítico canónico del 5%.

Hay una buena discusión sobre este fenómeno de ML en el blog del profesor Wasserman:

http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/

En su blog, encontrarás el histograma:

Histograma de valores p publicados

Dado que el nivel del 5% es una convención y no una ley de la naturaleza, ¿qué causa este comportamiento de la distribución empírica de los valores p publicados?

Sesgo de selección, "ajuste" sistemático de los valores p justo por encima del nivel crítico canónico, ¿o qué?

zen
fuente
11
Hay al menos 2 tipos de explicación: 1) el "problema del cajón de archivos": los estudios con p <.05 se publican, los anteriores no, así que es realmente una mezcla de dos distribuciones 2) Las personas están manipulando cosas, posiblemente subconscientemente , para obtener p <.05
Peter Flom - Restablecer a Monica
3
Hola @ Zen. Sí, exactamente ese tipo de cosas. Hay una fuerte tendencia a hacer cosas como esta. Si se confirma nuestra teoría, es menos probable que busquemos problemas estadísticos que si no lo es. Esto parece ser parte de nuestra naturaleza, pero es algo de lo que debemos tratar de protegernos.
Peter Flom - Restablece a Monica
@Zen ¡Puede que te interese esta publicación en el blog de Andrew Gelman que menciona algunas investigaciones que descubren que no hay sesgo de publicación en la investigación sobre el sesgo de publicación ...! andrewgelman.com/2012/04/…
smillig
1
Lo que sería interesante es volver a calcular los valores p de los artículos en revistas que rechazan expresamente los documentos basados ​​en el valor p, como solía hacer la Epidemiología (y en algunos sentidos, todavía lo hace). Me pregunto si cambia si la revista ha declarado que no le importa, o si los revisores / autores siguen haciendo pruebas mentales ad-hoc basadas en intervalos de confianza.
Fomite
44
Como se explica en el blog de Larry, esta es una colección de valores p publicados, en lugar de una muestra aleatoria de valores p muestreados del Mundo de valores p. Por lo tanto, no hay ninguna razón para que aparezca una distribución uniforme en la imagen, incluso como parte de una mezcla como se modela en la publicación de Larry.
Xi'an

Respuestas:

14

(1) Como ya mencionó @PeterFlom, una explicación podría estar relacionada con el problema del "cajón de archivos". (2) @Zen también mencionó el caso en que los autores manipulan los datos o los modelos (por ejemplo , dragado de datos ). (3) Sin embargo, no probamos hipótesis sobre una base puramente aleatoria. Es decir, las hipótesis no se eligen por casualidad, pero tenemos una hipótesis teórica (más o menos sólida).

También podría estar interesado en los trabajos de Gerber y Malhotra, quienes recientemente han realizado investigaciones en esa área aplicando la llamada "prueba de calibre":

También te puede interesar este número especial editado por Andreas Diekmann:

Bernd Weiss
fuente
10

Un argumento que falta hasta ahora es la flexibilidad del análisis de datos conocido como grados de libertad de los investigadores. En cada análisis hay que tomar muchas decisiones, dónde establecer el criterio atípico, cómo transformar los datos y ...

Esto se planteó recientemente en un artículo influyente de Simmons, Nelson y Simonsohn:

Simmons, JP, Nelson, LD y Simonsohn, U. (2011). Psicología falsa positiva: la flexibilidad no revelada en la recopilación y análisis de datos permite presentar cualquier cosa como significativa. Ciencia psicológica , 22 (11), 1359-1366. doi: 10.1177 / 0956797611417632

(Tenga en cuenta que este es el mismo Simonsohn responsable de algunos casos recientemente detectados de fraude de datos en Psicología Social, por ejemplo, entrevista , publicación de blog )

Henrik
fuente
8

Creo que es una combinación de todo lo que ya se ha dicho. Estos son datos muy interesantes y no he pensado mirar distribuciones de valores p como esta antes. Si la hipótesis nula es cierta, el valor p sería uniforme. Pero, por supuesto, con los resultados publicados, no veríamos uniformidad por muchas razones.

  1. Hacemos el estudio porque esperamos que la hipótesis nula sea falsa. Por lo tanto, deberíamos obtener resultados significativos la mayoría de las veces.

  2. Si la hipótesis nula fuera falsa solo la mitad del tiempo, no obtendríamos una distribución uniforme de los valores p.

  3. Problema del cajón de archivos: como se mencionó, tendríamos miedo de enviar el documento cuando el valor p no es significativo, por ejemplo, por debajo de 0.05.

  4. Los editores rechazarán el documento debido a resultados no significativos, aunque decidimos enviarlo.

  5. Cuando los resultados estén en el límite, haremos cosas (tal vez no con intención maliciosa) para obtener importancia. (a) redondea a 0.05 cuando el valor p es 0.053, (b) encuentra observaciones que creemos que pueden ser atípicas y después de eliminarlas, el valor p cae por debajo de 0.05.

Espero que esto resuma todo lo que se ha dicho de una manera razonablemente comprensible.

Lo que creo que es interesante es que vemos valores de p entre 0.05 y 0.1. Si las reglas de publicación rechazaran cualquier cosa con valores p superiores a 0.05, la cola derecha se cortaría a 0.05. ¿Realmente se cortó a 0.10? Si es así, quizás algunos autores y algunas revistas aceptarán un nivel de significación de 0.10 pero nada más alto.

Dado que muchos documentos incluyen varios valores p (ajustados para multiplicidad o no) y el documento se acepta porque las pruebas clave fueron significativas, podríamos ver valores p no significativos incluidos en la lista. Esto plantea la pregunta "¿Se incluyeron todos los valores p en el documento incluidos en el histograma?"

Una observación adicional es que hay una tendencia significativa al alza en la frecuencia de los artículos publicados, ya que el valor p se sitúa muy por debajo de 0,05. Tal vez eso sea una indicación de que los autores sobreinterpretan el valor de p pensando que p <0.0001 es mucho más digno de publicación. Creo que el autor ignora o no se da cuenta de que el valor p depende tanto del tamaño de la muestra como de la magnitud del tamaño del efecto.

Michael R. Chernick
fuente