Alta varianza de la distribución de valores p (un argumento en Taleb 2016)

16

Estoy tratando de entender el reclamo general realizado en Taleb, 2016, The Meta-Distribution of Standard P-Values .

En él, Taleb hace el siguiente argumento a favor de la falta de fiabilidad del valor p (según tengo entendido):

Un procedimiento de estimación que opera en puntos de datos provenientes de alguna distribución X genera un valor ap. Si extraemos n más puntos de esta distribución y generamos otro valor p, podemos promediar estos valores p obteniendo en el límite el llamado "valor p verdadero".nX

Se muestra que este "valor p verdadero" tiene una varianza inquietantemente alta, de modo que un procedimiento de distribución + con "valor p verdadero" informará el 60% del tiempo un valor p de <.05..12

Pregunta : ¿cómo se puede conciliar esto con el argumento tradicional a favor de la p valor ? Según tengo entendido, se supone que el valor p le indica qué porcentaje del tiempo su procedimiento le dará el intervalo correcto (o lo que sea). Sin embargo, este documento parece argumentar que esta interpretación es engañosa ya que el valor p no será el mismo si ejecuta el procedimiento nuevamente.

¿Me estoy perdiendo el punto?

Lepidopterista
fuente
1
¿Puedes explicar qué es este "argumento tradicional"? No estoy seguro de tener claro qué argumento estás considerando.
Glen_b: reinstala a Monica el
La pregunta es interesante y está relacionada con una literatura para la cual CV incluso tiene una etiqueta, combinando valores-p que le gustaría agregar si lo considera apropiado.
mdewey
1
Creo que la pregunta sobre la reproducibilidad de los valores p puede estar muy relacionada con esta. Quizás el análisis allí sea similar (o incluso el mismo) al mencionado aquí.
whuber

Respuestas:

13

Un valor p es una variable aleatoria.

Bajo (al menos para una estadística de distribución continua), el valor p debe tener una distribución uniformeH0 0

Para una prueba consistente, bajo el valor p debería ir a 0 en el límite a medida que los tamaños de muestra aumentan hacia el infinito. De manera similar, a medida que los tamaños de los efectos aumentan, las distribuciones de los valores p también deberían tender a desplazarse hacia 0, pero siempre se "distribuirán".H1

La noción de un valor p "verdadero" me parece una tontería. ¿Qué significaría, ya sea bajo o H 1H0 0H1 ? Por ejemplo, podría decir que quiere decir " la media de la distribución de los valores de p en algún tamaño de efecto y tamaño de muestra dados ", pero ¿en qué sentido tiene convergencia donde la dispersión debería reducirse? No es que pueda aumentar el tamaño de la muestra mientras la mantiene constante.

Aquí hay un ejemplo con una muestra de pruebas t y un tamaño de efecto pequeño bajo H1 . Los valores p son casi uniformes cuando el tamaño de la muestra es pequeño, y la distribución se concentra lentamente hacia 0 a medida que aumenta el tamaño de la muestra.

ingrese la descripción de la imagen aquí

Así es exactamente como se supone que deben comportarse los valores p: para un falso nulo, a medida que aumenta el tamaño de la muestra, los valores p deberían concentrarse más en valores bajos, pero no hay nada que sugiera que la distribución de los valores que toma cuando comete un error de tipo II, cuando el valor p está por encima de su nivel de significación, debería terminar de alguna manera "cerca" de ese nivel de significación.

Entonces, ¿cuál sería un valor de p es una estimación de ? No es como si estuviera convergiendo a algo (que no sea a 0). No está nada claro por qué uno esperaría que un valor p tenga una varianza baja en cualquier lugar, pero a medida que se acerca a 0, incluso cuando la potencia es bastante buena (por ejemplo, para α=0,05 , la potencia en el caso n = 1000 es cercana a 57 %, pero todavía es perfectamente posible obtener un valor p cerca de 1)

A menudo es útil considerar lo que está sucediendo tanto con la distribución de cualquier estadística de prueba que use bajo la alternativa como con lo que aplicará el cdf bajo nulo como una transformación a la distribución (que dará la distribución del valor p bajo La alternativa específica). Cuando piensas en estos términos, a menudo no es difícil ver por qué el comportamiento es como es.

El problema, como lo veo, no es tanto que haya algún problema inherente con los valores p o las pruebas de hipótesis, sino más bien si la prueba de hipótesis es una buena herramienta para su problema particular o si algo más sería más apropiado en cualquier caso particular, esa no es una situación para las polémicas generales sino una consideración cuidadosa del tipo de preguntas que abordan las pruebas de hipótesis y las necesidades particulares de su circunstancia. Desafortunadamente, rara vez se hace una cuidadosa consideración de estos problemas; con demasiada frecuencia se ve una pregunta sobre el formulario "¿Qué prueba utilizo para estos datos?" sin ninguna consideración de cuál podría ser la cuestión de interés, y mucho menos si alguna prueba de hipótesis es una buena manera de abordarla.

Una dificultad es que las pruebas de hipótesis son ampliamente incomprendidas y mal utilizadas; la gente suele pensar que nos dicen cosas que no dicen. El valor p es posiblemente la cosa más incomprendida de las pruebas de hipótesis.

Glen_b -Reinstate a Monica
fuente
pnm
nnn
1
Pero si tiene una variable aleatoria, puede hablar sobre su expectativa. En promedio, el valor p bajo H1 (bajo cierto modelo) puede ser .12. Supongo que las críticas de Taleb me parecen extrañas. Parece estar diciendo que bajoH1H1
3
norte
3
+1. Un análisis relacionado, y divertido, que me viene a la mente es lo que Geoff Cumming llama "Un baile de valores p": vea youtube.com/watch?v=5OL1RqHrZQ8 (el "baile" ocurre alrededor de los 9 minutos) . Esta pequeña presentación completa enfatiza básicamente cuán variables son los valores p incluso para una potencia relativamente alta. No estoy del todo de acuerdo con el punto principal de Cumming de que los intervalos de confianza son mucho mejores que los valores p (y odio que lo llame "nuevas estadísticas"), pero creo que esta variabilidad de la cantidad es sorprendente para muchas personas y "Bailar" es una linda manera de demostrarlo.
ameba dice Reinstate Monica
10

La respuesta de Glen_b es acertada (+1; considera la mía suplementaria). El artículo al que hace referencia Taleb es tópicamente muy similar a una serie de artículos dentro de la literatura de psicología y estadística sobre qué tipo de información puede obtener al analizar las distribuciones de valores p (lo que los autores llaman curva p ; vea su sitio con un montón de recursos, incluida una aplicación de análisis de curva p aquí ).

Los autores proponen dos usos principales de la curva p:

  1. Puede evaluar el valor probatorio de una literatura analizando la curva p de la literatura . Este fue su primer uso anunciado de la curva p. Esencialmente, como Glen_b describe, cuando se trata de tamaños de efectos distintos de cero, debería ver curvas p que están sesgadas positivamente por debajo del umbral convencional de p <.05, ya que los valores p más pequeños deberían ser más probables que p- valores más cercanos a p= .05 cuando un efecto (o grupo de efectos) son "reales". Por lo tanto, puede probar una curva p para un sesgo positivo significativo como prueba de valor probatorio. Por el contrario, los desarrolladores proponen que puede realizar una prueba de asimetría negativa (es decir, valores p significativos más limítrofes que los más pequeños) como una forma de probar si un conjunto dado de efectos ha estado sujeto a varias prácticas analíticas cuestionables.
  2. Puede calcular una estimación metaanalítica sin sesgo de publicación del tamaño del efecto utilizando la curva p con los valores p publicados . Este es un poco más complicado de explicar sucintamente, y en su lugar, le recomiendo que consulte sus documentos centrados en la estimación del tamaño del efecto (Simonsohn, Nelson y Simmons, 2014a, 2014b) y lea los métodos usted mismo. Pero, en esencia, los autores sugieren que la curva p se puede utilizar para evitar el problema del efecto de cajón de archivos, al realizar un metanálisis.

Entonces, en cuanto a su pregunta más amplia de:

¿Cómo se puede conciliar esto con el argumento tradicional a favor del valor p?

Diría que métodos como el de Taleb (y otros) han encontrado una forma de reutilizar los valores p, de modo que podamos obtener información útil sobre la literatura completa analizando grupos de valores p, mientras que un valor p por sí solo podría ser mucho más limitado en su utilidad.

Referencias

Simonsohn, U., Nelson, LD y Simmons, JP (2014a). Curva P: una clave para el cajón de archivos. Revista de psicología experimental: general , 143 , 534–547.

Simonsohn, U., Nelson, LD y Simmons, JP (2014b). Curva P y tamaño del efecto: corrección del sesgo de publicación utilizando solo resultados significativos.Perspectivas sobre la ciencia psicológica , 9 , 666-681.

Simonsohn, U., Simmons, JP y Nelson, LD (2015). Mejores curvas P: hacer que el análisis de la curva P sea más robusto ante errores, fraude y piratería P ambiciosa, una respuesta a Ulrich y Miller (2015). Revista de psicología experimental: general , 144 , 1146-1152.

jsakaluk
fuente