Estoy tratando de entender el reclamo general realizado en Taleb, 2016, The Meta-Distribution of Standard P-Values .
En él, Taleb hace el siguiente argumento a favor de la falta de fiabilidad del valor p (según tengo entendido):
Un procedimiento de estimación que opera en puntos de datos provenientes de alguna distribución X genera un valor ap. Si extraemos n más puntos de esta distribución y generamos otro valor p, podemos promediar estos valores p obteniendo en el límite el llamado "valor p verdadero".
Se muestra que este "valor p verdadero" tiene una varianza inquietantemente alta, de modo que un procedimiento de distribución + con "valor p verdadero" informará el 60% del tiempo un valor p de <.05.
Pregunta : ¿cómo se puede conciliar esto con el argumento tradicional a favor de la valor ? Según tengo entendido, se supone que el valor p le indica qué porcentaje del tiempo su procedimiento le dará el intervalo correcto (o lo que sea). Sin embargo, este documento parece argumentar que esta interpretación es engañosa ya que el valor p no será el mismo si ejecuta el procedimiento nuevamente.
¿Me estoy perdiendo el punto?
fuente
Respuestas:
Un valor p es una variable aleatoria.
Bajo (al menos para una estadística de distribución continua), el valor p debe tener una distribución uniformeH0 0
Para una prueba consistente, bajo el valor p debería ir a 0 en el límite a medida que los tamaños de muestra aumentan hacia el infinito. De manera similar, a medida que los tamaños de los efectos aumentan, las distribuciones de los valores p también deberían tender a desplazarse hacia 0, pero siempre se "distribuirán".H1
La noción de un valor p "verdadero" me parece una tontería. ¿Qué significaría, ya sea bajo o H 1H0 0 H1 ? Por ejemplo, podría decir que quiere decir " la media de la distribución de los valores de p en algún tamaño de efecto y tamaño de muestra dados ", pero ¿en qué sentido tiene convergencia donde la dispersión debería reducirse? No es que pueda aumentar el tamaño de la muestra mientras la mantiene constante.
Aquí hay un ejemplo con una muestra de pruebas t y un tamaño de efecto pequeño bajoH1 . Los valores p son casi uniformes cuando el tamaño de la muestra es pequeño, y la distribución se concentra lentamente hacia 0 a medida que aumenta el tamaño de la muestra.
Así es exactamente como se supone que deben comportarse los valores p: para un falso nulo, a medida que aumenta el tamaño de la muestra, los valores p deberían concentrarse más en valores bajos, pero no hay nada que sugiera que la distribución de los valores que toma cuando comete un error de tipo II, cuando el valor p está por encima de su nivel de significación, debería terminar de alguna manera "cerca" de ese nivel de significación.
Entonces, ¿cuál sería un valor de p es una estimación de ? No es como si estuviera convergiendo a algo (que no sea a 0). No está nada claro por qué uno esperaría que un valor p tenga una varianza baja en cualquier lugar, pero a medida que se acerca a 0, incluso cuando la potencia es bastante buena (por ejemplo, paraα = 0.05 , la potencia en el caso n = 1000 es cercana a 57 %, pero todavía es perfectamente posible obtener un valor p cerca de 1)
A menudo es útil considerar lo que está sucediendo tanto con la distribución de cualquier estadística de prueba que use bajo la alternativa como con lo que aplicará el cdf bajo nulo como una transformación a la distribución (que dará la distribución del valor p bajo La alternativa específica). Cuando piensas en estos términos, a menudo no es difícil ver por qué el comportamiento es como es.
El problema, como lo veo, no es tanto que haya algún problema inherente con los valores p o las pruebas de hipótesis, sino más bien si la prueba de hipótesis es una buena herramienta para su problema particular o si algo más sería más apropiado en cualquier caso particular, esa no es una situación para las polémicas generales sino una consideración cuidadosa del tipo de preguntas que abordan las pruebas de hipótesis y las necesidades particulares de su circunstancia. Desafortunadamente, rara vez se hace una cuidadosa consideración de estos problemas; con demasiada frecuencia se ve una pregunta sobre el formulario "¿Qué prueba utilizo para estos datos?" sin ninguna consideración de cuál podría ser la cuestión de interés, y mucho menos si alguna prueba de hipótesis es una buena manera de abordarla.
Una dificultad es que las pruebas de hipótesis son ampliamente incomprendidas y mal utilizadas; la gente suele pensar que nos dicen cosas que no dicen. El valor p es posiblemente la cosa más incomprendida de las pruebas de hipótesis.
fuente
La respuesta de Glen_b es acertada (+1; considera la mía suplementaria). El artículo al que hace referencia Taleb es tópicamente muy similar a una serie de artículos dentro de la literatura de psicología y estadística sobre qué tipo de información puede obtener al analizar las distribuciones de valores p (lo que los autores llaman curva p ; vea su sitio con un montón de recursos, incluida una aplicación de análisis de curva p aquí ).
Los autores proponen dos usos principales de la curva p:
Entonces, en cuanto a su pregunta más amplia de:
Diría que métodos como el de Taleb (y otros) han encontrado una forma de reutilizar los valores p, de modo que podamos obtener información útil sobre la literatura completa analizando grupos de valores p, mientras que un valor p por sí solo podría ser mucho más limitado en su utilidad.
Referencias
Simonsohn, U., Nelson, LD y Simmons, JP (2014a). Curva P: una clave para el cajón de archivos. Revista de psicología experimental: general , 143 , 534–547.
Simonsohn, U., Nelson, LD y Simmons, JP (2014b). Curva P y tamaño del efecto: corrección del sesgo de publicación utilizando solo resultados significativos.Perspectivas sobre la ciencia psicológica , 9 , 666-681.
Simonsohn, U., Simmons, JP y Nelson, LD (2015). Mejores curvas P: hacer que el análisis de la curva P sea más robusto ante errores, fraude y piratería P ambiciosa, una respuesta a Ulrich y Miller (2015). Revista de psicología experimental: general , 144 , 1146-1152.
fuente