Mi pregunta en el título se explica por sí misma, pero me gustaría darle un poco de contexto.
El ASA emitió una declaración a principios de esta semana " sobre los valores p: contexto, proceso y propósito ", que describe varios conceptos erróneos comunes sobre el valor p e insta a la precaución de no usarlo sin contexto y pensamiento (lo que podría decirse sobre cualquier método estadístico, de verdad).
En respuesta a la ASA, el profesor Matloff escribió una publicación en el blog titulada: Después de 150 años, la ASA dice No a los valores p . Luego, el profesor Benjamini (y yo) escribimos una publicación de respuesta titulada No es culpa de los valores p : reflexiones sobre la reciente declaración de ASA . En respuesta a esto, el profesor Matloff preguntó en una publicación de seguimiento :
Lo que me gustaría ver [...] es: un buen ejemplo convincente en el que los valores p son útiles. Eso realmente tiene que ser el resultado final.
Para citar sus dos argumentos principales en contra de la utilidad del valor :
Con muestras grandes, las pruebas de significación se abalanzan sobre desviaciones pequeñas y sin importancia de la hipótesis nula.
Casi ninguna hipótesis nula es cierta en el mundo real, por lo que realizar una prueba de significación en ellas es absurdo y extraño.
Estoy muy interesado en lo que otros miembros de la comunidad con validación cruzada piensan de esta pregunta / argumentos, y de lo que puede constituir una buena respuesta a ella.
fuente
Respuestas:
Consideraré los dos puntos de Matloff:
La lógica aquí es que si alguien informa altamente significativo , entonces solo con este número no podemos decir si el efecto es grande e importante o irrelevantemente pequeño (como puede suceder con grande ). Este argumento me parece extraño y no puedo conectarme con él en absoluto, porque nunca he visto un estudio que informe un valor sin informar [algún equivalente del] tamaño del efecto. Los estudios que leí dirían, por ejemplo, (y generalmente muestran en una figura) que el grupo A tenía tal y tal media, el grupo B tenía tal y tal media y eran significativamente diferentes con tal y tal valor . Obviamente puedo juzgar por mí mismo si la diferencia entre A y B es grande o pequeña.n p pp = 0.0001 norte pags pags
(En los comentarios, @RobinEkman me señaló varios estudios altamente citados por Ziliak & McCloskey ( 1996 , 2004 ) que observaron que la mayoría de los artículos de economía anuncian la "importancia estadística" de algunos efectos sin prestar mucha atención al tamaño del efecto y su "importancia práctica" (que, según Z&MS, a menudo puede ser minúscula). Esto es claramente una mala práctica. Sin embargo, como explicamos a continuación @MatteoS, los tamaños del efecto (estimaciones de regresión) siempre se informan, por lo que mi argumento es válido.
Esta preocupación también se expresa a menudo, pero aquí nuevamente no puedo conectarme realmente con ella. Es importante darse cuenta de que los investigadores no aumentan su ad infinitum . En la rama de neurociencia con la que estoy familiarizado, las personas harán experimentos con o tal vez , digamos, ratas. Si no se ve ningún efecto, la conclusión es que el efecto no es lo suficientemente grande como para ser interesante. Nadie que yo conozca se encendería la cría, la formación, la grabación, y sacrificando ratas para demostrar que no es un efecto estadísticamente significativo, pero pequeño. Y si bien puede ser cierto que casi ningún efecto real es exactamente cero, esn = 20 n = 50 n = 5000norte n = 20 n = 50 n = 5000 Ciertamente, es cierto que muchos efectos reales son lo suficientemente pequeños como para ser detectados con tamaños de muestra razonables que los investigadores razonables realmente están utilizando, ejerciendo su buen juicio.
(Existe una preocupación válida de que los tamaños de muestra a menudo no son lo suficientemente grandes y que muchos estudios tienen poca potencia. Por lo tanto, tal vez los investigadores en muchos campos deberían apuntar, por ejemplo, a lugar de Aún así, sea cual sea el tamaño de la muestra es , pone un límite al tamaño del efecto que el estudio tiene poder para detectar).n = 20n = 100 n = 20
Además, no creo estar de acuerdo en que casi ninguna hipótesis nula es verdadera, al menos no en los estudios aleatorizados experimentales (a diferencia de los observacionales). Dos razones:
Muy a menudo hay una direccionalidad en la predicción que se está probando; El objetivo del investigador es demostrar que algún efecto es positivo . Por convención, esto generalmente se hace con una prueba de dos lados asumiendo un punto nulo pero en realidad es una prueba unilateral que intenta rechazar . (La respuesta de @ CliffAB, +1, hace un punto relacionado.) Y esto ciertamente puede ser cierto.H 0 : δ = 0 H 0 : δ < 0δ> 0 H0 0: δ= 0 H0:δ<0
Incluso hablando del punto "nulo" nulo , no veo por qué nunca son ciertas. Algunas cosas simplemente no están causalmente relacionadas con otras cosas. Mire los estudios de psicología que no se han podido replicar en los últimos años: personas que sienten el futuro; mujeres vestidas de rojo cuando ovulan; cebado con palabras relacionadas con la vejez que afectan la velocidad al caminar; etc. Es muy posible que no haya vínculos causales aquí, por lo que los verdaderos efectos son exactamente cero.H0:δ=0
Él mismo, Norm Matloff sugiere usar intervalos de confianza en lugar de valores porque muestran el tamaño del efecto. Los intervalos de confianza son buenos, pero observe una desventaja de un intervalo de confianza en comparación con el valor : el intervalo de confianza se informa para un valor de cobertura particular, por ejemplo, . Ver un intervalo de confianza del no me dice qué tan amplio sería un intervalo de confianza del . Pero un solo valor se puede comparar con cualquier y diferentes lectores pueden tener diferentes alfa en mente.p 95 % 95 % 99 % p αp p 95% 95% 99% p α
En otras palabras, creo que para alguien a quien le gusta usar intervalos de confianza, un valor es una estadística adicional útil y significativa para informar.p
Me gustaría dar una larga cita sobre la utilidad práctica de los valores de mi blogger favorito Scott Alexander; él no es un estadístico (es un psiquiatra) pero tiene mucha experiencia leyendo literatura psicológica / médica y analizando las estadísticas allí. La cita es de su publicación de blog sobre el estudio de chocolate falso que recomiendo encarecidamente. El énfasis es mío.p
Para un análisis más detallado de varias alternativas a los valores (incluidos los bayesianos), consulte mi respuesta en ASA que analiza las limitaciones de los valores : ¿cuáles son las alternativas?pp p
fuente
Me ofende mucho las siguientes dos ideas:
Es un argumento de paja sobre los valores p. El problema fundamental que motivó el desarrollo de las estadísticas proviene de ver una tendencia y de querer saber si lo que vemos es por casualidad o representativo de una tendencia sistemática.
Con eso en mente, es cierto que nosotros, como estadísticos, generalmente no creemos que una hipótesis nula sea verdadera (es decir, , donde es la diferencia media en alguna medición entre dos grupos). Sin embargo, con las pruebas de dos lados, ¡no sabemos qué hipótesis alternativa es verdadera! En una prueba de dos lados, podemos estar dispuestos a decir que estamos 100% seguros de que antes de ver los datos. Pero no sabemos si o . Entonces, si ejecutamos nuestro experimento y concluimos que , hemos rechazado (como podría decir ; conclusión inútil) pero, lo que es más importante, también hemos rechazadoμ dHo:μd=0 μd μd≠0 μd>0 μd<0 μd>0 μd=0 μd<0 (digo; conclusión útil). Como señaló @amoeba, esto también se aplica a la prueba unilateral que tiene el potencial de ser bilateral, como probar si un medicamento tiene un efecto positivo.
Es cierto que esto no te dice la magnitud del efecto. Pero sí te dice la dirección del efecto. Así que no pongamos el carro delante del caballo; Antes de comenzar a sacar conclusiones sobre la magnitud del efecto, ¡quiero estar seguro de que tengo la dirección correcta del efecto!
Del mismo modo, el argumento de que "los valores p se abalanzan sobre los efectos pequeños y sin importancia" me parece bastante erróneo. Si piensa en un valor p como una medida de cuánto los datos apoyan la dirección de su conclusión, entonces, por supuesto, desea que recoja pequeños efectos cuando el tamaño de la muestra es lo suficientemente grande. Decir que esto significa que no son útiles es muy extraño para mí: ¿son estos campos de investigación que han sufrido valores p los mismos que tienen tantos datos que no necesitan evaluar la fiabilidad de sus estimaciones? Del mismo modo, si su problema es que los valores p "se abalanzan sobre tamaños de efectos pequeños", entonces simplemente puede probar las hipótesis yH 2 : μ d < - 1H1:μd>1 H2:μd<−1 (suponiendo que cree que 1 es el tamaño de efecto mínimo importante). Esto se hace a menudo en ensayos clínicos.
Para ilustrar más esto, supongamos que solo miramos los intervalos de confianza y descartamos los valores p. ¿Qué es lo primero que verificaría en el intervalo de confianza? Si el efecto fue estrictamente positivo (o negativo) antes de tomar los resultados demasiado en serio. Como tal, incluso sin valores de p, estaríamos haciendo pruebas de hipótesis de manera informal.
Finalmente, con respecto a la solicitud de OP / Matloff, "Da un argumento convincente de que los valores p son significativamente mejores", creo que la pregunta es un poco incómoda. Digo esto porque, según su punto de vista, se responde automáticamente ("deme un ejemplo concreto donde probar una hipótesis es mejor que no probarla"). Sin embargo, un caso especial que creo que es casi innegable es el de los datos RNAseq. En este caso, típicamente observamos el nivel de expresión de ARN en dos grupos diferentes (es decir, enfermos, controles) y tratamos de encontrar genes que se expresan diferencialmente en los dos grupos. En este caso, el tamaño del efecto en sí mismo ni siquiera es realmente significativo. Esto se debe a que los niveles de expresión de diferentes genes varían tanto que, para algunos genes, tener una expresión 2 veces mayor no significa nada, mientras que en otros genes estrictamente regulados, una expresión 1,2 veces mayor es fatal. Entonces, la magnitud real del tamaño del efecto es realmente poco interesante cuando se comparan los grupos por primera vez. Pero tu¡realmente, realmente quiero saber si la expresión del gen cambia entre los grupos y la dirección del cambio! Además, es mucho más difícil abordar los problemas de las comparaciones múltiples (para las cuales puede hacer 20,000 de ellas en una sola ejecución) con intervalos de confianza que con los valores p.
fuente
Perdone mi sarcasmo, pero un buen ejemplo obvio de la utilidad de los valores p está en ser publicado. Tuve un investigador que se me acercó para producir un valor p ... había introducido un transgén en una sola planta para mejorar el crecimiento. De esa sola planta, produjo múltiples clones y eligió el clon más grande, un ejemplo en el que se enumera toda la población. Su pregunta, el revisor quiere ver un valor p de que este clon es el más grande. Mencioné que no hay necesidad de estadísticas en este caso, ya que tenía a la población entera a mano, pero fue en vano.
Más seriamente, en mi humilde opinión, desde una perspectiva académica, encuentro esta discusión interesante y estimulante, al igual que los debates frecuentistas vs bayesianos de hace unos años. Resalta las diferentes perspectivas de las mejores mentes en este campo e ilumina las muchas suposiciones / dificultades asociadas con la metodología que generalmente no es fácilmente accesible.
En la práctica, creo que, en lugar de discutir sobre el mejor enfoque y reemplazar un criterio defectuoso por otro, como se ha sugerido anteriormente en otro lugar, para mí es más bien una revelación de un problema sistémico subyacente y el enfoque debería estar en tratar de encontrar lo mejor soluciones Por ejemplo, uno podría presentar situaciones en las que los valores de p y el IC se complementan entre sí y las circunstancias en las que uno es más confiable que el otro. En el gran esquema de las cosas, entiendo que todas las herramientas inferenciales tienen sus propios defectos que deben ser entendidos en cualquier aplicación para no obstaculizar el progreso hacia el objetivo final ... la comprensión más profunda del sistema de estudio.
fuente
Le daré el caso ejemplar de cómo se deben usar e informar los valores p. Es un informe muy reciente sobre la búsqueda de una partícula misteriosa en el Gran Colisionador de Hadrones (LHC) en el CERN .
Hace unos meses hubo mucha charla emocionada en los círculos de física de alta energía sobre la posibilidad de que se detectara una gran partícula en el LHC. Recuerde que esto fue después del descubrimiento del bosón de Higgs . Aquí está el extracto del artículo "Buscar resonancias que decaen a pares de fotones en 3.2 fb − 1 de colisiones de pp en √s = 13 TeV con el detector ATLAS" por The ATLAS Collaboration 15 de diciembre de 2015 y mis comentarios siguen:
Lo que dicen aquí es que el conteo de eventos excede lo que predice el Modelo Estándar . La siguiente figura del documento muestra los valores p de eventos en exceso en función de la masa de una partícula. Usted ve cómo el valor p cae alrededor de 750 GeV. Entonces, dicen que existe la posibilidad de que se detecte una nueva partícula con una masa igual a 750 Giga eV . Los valores p de la figura se calculan como "locales". Los valores p globales son mucho más altos. Sin embargo, eso no es importante para nuestra conversación.
Lo importante es que los valores p aún no son "lo suficientemente bajos" para que los físicos declaren un hallazgo, sino "lo suficientemente bajos" para entusiasmarse. Por lo tanto, planean seguir contando y esperan que esos valores p disminuyan aún más.
Amplíe unos meses antes de agosto de 2016, Chicago, una conferencia sobre HEP . Hubo un nuevo informe presentado "Búsqueda de producción resonante de pares de fotones de alta masa utilizando 12.9 fb − 1 de colisiones protón-protón a √ s = 13 TeV e interpretación combinada de búsquedas a 8 y 13 TeV" por The CMS Collaboration esta vez. Aquí están los extractos con mis comentarios nuevamente:
Entonces, los chicos continuaron recolectando eventos, y ahora esa cantidad de eventos en exceso a 750 GeV se ha ido. La siguiente figura del documento muestra los valores p, y puede ver cómo aumentó el valor p en comparación con el primer informe. Entonces, lamentablemente concluyen que no se detectan partículas a 750 GeV.
Creo que así es como se supone que deben usarse los valores p. Tienen un sentido total y claramente funcionan. Creo que la razón es que los enfoques frecuentistas son inherentemente naturales en la física. No hay nada subjetivo sobre la dispersión de partículas. Recoge una muestra lo suficientemente grande y obtiene una señal clara si está allí.
Si realmente está interesado en cómo se calculan exactamente los valores p aquí, lea este artículo : "Fórmulas asintóticas para pruebas basadas en la probabilidad de nueva física" por Cowan et al.
fuente
Las otras explicaciones están bien, solo quería intentar dar una respuesta breve y directa a la pregunta que se me ocurrió.
Comprobación del desequilibrio de covariables en experimentos aleatorizados
Su segunda afirmación (sobre hipótesis nulas poco realistas) no es cierta cuando verificamos el equilibrio de covariables en experimentos aleatorios donde sabemos que la aleatorización se realizó correctamente. En este caso, sabemos que la hipótesis nula es cierta. Si obtenemos una diferencia significativa entre el tratamiento y el grupo de control en alguna covariable, después de controlar las comparaciones múltiples, por supuesto, entonces eso nos dice que obtuvimos un "mal empate" en la aleatorización y tal vez no deberíamos confiar en la estimación causal como mucho. Esto se debe a que podríamos pensar que nuestras estimaciones del efecto del tratamiento de esta aleatorización particular de "mal sorteo" están más lejos de los verdaderos efectos del tratamiento que las estimaciones obtenidas de un "buen sorteo".
Creo que este es un uso perfecto de los valores p. Utiliza la definición del valor p: la probabilidad de obtener un valor como o más extremo dada la hipótesis nula. Si el resultado es altamente improbable, de hecho obtuvimos un "mal empate".
Las tablas de balance / estadísticas también son comunes cuando se usan datos de observación para tratar de hacer inferencias causales (por ejemplo, emparejamiento, experimentos naturales). Aunque en estos casos, las tablas de balance están lejos de ser suficientes para justificar una etiqueta "causal" a las estimaciones.
fuente
El control de las tasas de error es similar al control de calidad en la producción. Un robot en una línea de producción tiene una regla para decidir que una pieza es defectuosa, lo que garantiza que no exceda una tasa específica de piezas defectuosas que pasan sin ser detectadas. Del mismo modo, una agencia que toma decisiones para la aprobación de medicamentos con base en valores P "honestos" tiene una manera de mantener la tasa de rechazos falsos en un nivel controlado, por definición a través de la construcción frecuente de pruebas a largo plazo. Aquí, "honesto" significa ausencia de sesgos incontrolados, selecciones ocultas, etc.
Sin embargo, ni el robot ni la agencia tienen una participación personal en ninguna droga en particular o una parte que pasa por el transportador de ensamblaje. Por otro lado, en ciencia, nosotros, como investigadores individuales, nos preocupamos más por la hipótesis particular que estudiamos, más que por la proporción de afirmaciones espurias en nuestra revista favorita a la que nos sometemos. Ni la magnitud del valor P ni los límites de un intervalo de confianza (IC) se refieren directamente a nuestra pregunta sobre la credibilidad de lo que informamos. Cuando construimos los límites de CI, deberíamos decir que el único significado de los dos números es que si otros científicos realizan el mismo tipo de cálculo de CI en sus estudios, se mantendrá el 95% o cualquier cobertura sobre varios estudios en su conjunto. .
Desde este punto de vista, me parece irónico que los valores P estén siendo "prohibidos" por las revistas, teniendo en cuenta que, en medio de la crisis de replicabilidad, son más valiosos para los editores de revistas que para los investigadores que envían sus documentos, como una forma práctica de mantener el tasa de hallazgos espurios reportados por un diario a raya, a la larga. Los valores P son buenos para filtrar, o como escribió IJ Good, son buenos para proteger el extremo posterior del estadístico, pero no tanto el extremo posterior del cliente.
PD: Soy un gran admirador de la idea de Benjamini y Hochberg de llevar la expectativa incondicional a través de los estudios con múltiples pruebas. Bajo el "nulo" global, el FDR "frecuente" todavía está controlado: los estudios con uno o más rechazos aparecen en una revista a una velocidad controlada, aunque, en este caso, cualquier estudio en el que se hayan realizado algunos rechazos tiene la proporción de falsos rechazos que es igual a uno.
fuente
Estoy de acuerdo con Matt en que los valores p son útiles cuando la hipótesis nula es verdadera.
El ejemplo más simple que se me ocurre es probar un generador de números aleatorios. Si el generador funciona correctamente, puede usar cualquier tamaño de muestra apropiado de las realizaciones y al probar el ajuste en muchas muestras, los valores p deben tener una distribución uniforme. Si lo hacen, esta es una buena evidencia para una implementación correcta. Si no lo hacen, sabes que has cometido un error en alguna parte.
Otras situaciones similares ocurren cuando se sabe que una variable estadística o aleatoria debe tener una distribución determinada (nuevamente, el contexto más obvio es la simulación). Si los valores p son uniformes, ha encontrado soporte para una implementación válida. Si no, sabes que tienes un problema en algún lugar de tu código.
fuente
Puedo pensar en ejemplos en los que los valores p son útiles, en Experimental High Energy Physics. Ver Fig. 1 Este gráfico está tomado de este documento: Observación de una nueva partícula en la búsqueda del bosón de Higgs Modelo Estándar con el detector ATLAS en el LHC
fuente