Los informes noticiosos dicen que el CERN anunciará mañana que el bosón de Higgs ha sido detectado experimentalmente con evidencia 5 . De acuerdo con ese artículo:
5 equivale a un 99.99994% de posibilidades de que los datos que ven los detectores CMS y ATLAS no sean solo ruido aleatorio, y un 0.00006% de posibilidades de que hayan sido engañados; 5 es la certeza necesaria para que algo se etiquete oficialmente como un "descubrimiento" científico.
Esto no es súper riguroso, pero parece decir que los físicos usan la metodología estadística estándar de "prueba de hipótesis", estableciendo en , que corresponde a (dos colas). ¿O hay algún otro significado?
En gran parte de la ciencia, por supuesto, establecer alfa a 0.05 se realiza de forma rutinaria. Esto sería equivalente a la evidencia "two- ", aunque nunca he oído que se llame así. ¿Hay otros campos (además de la física de partículas) donde una definición mucho más estricta de alfa es estándar? ¿Alguien conoce una referencia de cómo la regla de las cinco fue aceptada por la física de partículas?
Actualización: estoy haciendo esta pregunta por una simple razón. Mi libro Bioestadística intuitiva (como la mayoría de los libros de estadísticas) tiene una sección que explica cuán arbitraria es la regla habitual "P <0.05". Me gustaría agregar este ejemplo de un campo científico donde se considera necesario un valor mucho más pequeño de . Pero si el ejemplo es realmente más complicado, con el uso de métodos bayesianos (como sugieren algunos comentarios a continuación), entonces no sería del todo adecuado o requeriría mucha más explicación.
fuente
Respuestas:
En la mayoría de las aplicaciones de estadísticas, existe esa vieja historia sobre "todos los modelos están equivocados, algunos son útiles". Siendo este el caso, solo esperaríamos que un modelo funcione en un nivel dado, ya que estamos describiendo un proceso increíblemente complicado usando un modelo simple.
La física es muy diferente, por lo que la intuición desarrollada a partir de modelos estadísticos no es tan apropiada. En Física, en particular la física de partículas que trata directamente con las leyes físicas fundamentales, se supone que el modelo es realmente una descripción exacta de la realidad. Cualquier desviación de lo que predice el modelo debe explicarse completamente por el ruido experimental, no una limitación del modelo. Esto significa que si el modelo es bueno y correcto y el aparato experimental entendió que la significancia estadística debería ser muy alta, de ahí la barra alta que se establece.
La otra razón es histórica, la comunidad de física de partículas ha sido quemada en el pasado por 'descubrimientos' en niveles de significancia más bajos que se retraen más tarde, por lo tanto, ahora son generalmente más cautelosos.
fuente
Historia y origen
Según Robert D Cousins y Tommaso Dorigo , el origen del origen del umbral reside en el trabajo de física de partículas temprano de los años 60 cuando se investigaron numerosos histogramas de experimentos de dispersión y se buscaron picos / protuberancias eso podría indicar alguna partícula recién descubierta. El umbral es una regla aproximada para tener en cuenta las comparaciones múltiples que se están realizando.1 2 5σ
Ambos autores se refieren a un artículo de 1968 de Rosenfeld , que abordaba la cuestión de si existen o no mesones y bariones, para los cuales se midieron varios efectos . El artículo respondió negativamente a la pregunta argumentando que el número de reclamos publicados corresponde al número de fluctuaciones esperado estadísticamente. Junto con varios cálculos que respaldan este argumento, el artículo promovió el uso del nivel :3 4σ 5σ
y más adelante en el documento (el énfasis es mío)
Tommaso parece ser cuidadoso al afirmar que comenzó con el artículo de Rosenfeld
Pero en los años 80, el uso de se extendió. Por ejemplo, el astrónomo Steve Schneider menciona en 1989 que se está enseñando algo (enfatice el mío en la cita a continuación):5σ 4
Sin embargo, en el campo de la física de partículas, muchas publicaciones todavía se basaban en discrepancias de hasta finales de los 90. Esto solo cambió a a principios del siglo XXI. Probablemente se prescribe como una guía para publicaciones alrededor de 2003 (ver el prólogo en el libro de Franklin Shifting Standards )4σ 5σ 5
Uso moderno
Actualmente, el umbral es un estándar de libro de texto. Por ejemplo, aparece como un artículo estándar en physics.org o en algunos de los trabajos de Glen Cowan, como la sección de estadísticas de la Review of Particle Physics del grupo de datos de partículas (aunque con varias notas al margen críticas)5σ 6 7
El uso del nivel ahora se atribuye a 4 razones:5σ
La historia basada en la práctica encontró que es un buen umbral. (cosas exóticas parecen suceder al azar, incluso entre a , como recientemente el exceso de diphoton de 750 GeV )5σ 3σ 4σ
El efecto de buscar en otra parte (o las comparaciones múltiples ). Ya sea porque se prueban múltiples hipótesis o porque los experimentos se realizan muchas veces, las personas se ajustan a esto (más o menos) ajustando el límite a . Esto se relaciona con el argumento de la historia.5σ
Los efectos sistemáticos y la incertidumbre enσ menudo desconocen la incertidumbre del resultado del experimento. La se deriva, pero la derivación incluye suposiciones débiles, como la ausencia de efectos sistemáticos o la posibilidad de ignorarlos. Aumentar el umbral parece ser una forma de una especie de protección contra estos eventos. (Sin embargo, esto es un poco extraño. La calculada no tiene relación con el tamaño de los efectos sistemáticos y la lógica se rompe, un ejemplo es el "descubrimiento" de neutrinos superluminales que, según se informa, tiene un significado de ).σ σ 6σ
Las afirmaciones extraordinarias requieren evidencia extraordinaria Los resultados científicos se informan de manera frecuente, por ejemplo, utilizando intervalos de confianza o valores p. Pero, a menudo se interpretan de manera bayesiana. Seafirma que el niveltiene en cuenta esto.5σ
Otros campos
Es interesante observar que muchos otros campos científicos no tienen umbrales similares o, de alguna manera, no abordan el problema. Me imagino que esto tiene un poco de sentido en el caso de experimentos con humanos en los que es muy costoso (o imposible) extender un experimento que dio una significación de .05 o .01.
Primos, RD (2017). La paradoja de Jeffreys-Lindley y los criterios de descubrimiento en física de alta energía. Synthese, 194 (2), 395-432. enlace arxiv
Dorigo, T. (2013) Desmitificando el Criterio Five-Sigma, de science20.com 2019-03-07
Rosenfeld, AH (1968). ¿Hay mesones o bariones lejanos? fuente web: beca
Burbidge, G., Roberts, M., Schneider, S., Sharp, N. y Tifft, W. (1990, noviembre). Panel de discusión: problemas relacionados con Redshift. En la publicación de la Conferencia de la NASA (Vol. 3098, p. 462). enlace a fotocopia en harvard.edu
Franklin, A. (2013). Estándares cambiantes: experimentos en física de partículas en el siglo XX. Prensa de la Universidad de Pittsburgh.
¿Qué significa el 5 sigma? de physics.org 2019-03-07
Beringer, J., Arguin, JF, Barnett, RM, Copic, K., Dahl, O., Groom, DE, ... & Yao, WM (2012). Revisión de la física de partículas. Revisión física de partículas D, campos, gravitación y cosmología, 86 (1), 010001. (sección 36.2.2. Pruebas de significación, página 394, enlace aps.org )
Lyons, L. (2013). Descubriendo el significado de 5 sigma. preimpresión arXiv arXiv: 1310.1284. enlace arxiv
Lyons, L. (2014). Cuestiones estadísticas en búsquedas de nueva física. arXiv preprint enlace arxiv
Baker, M. (2015). Más de la mitad de los estudios de psicología fallan en la prueba de reproducibilidad. Noticias de la naturaleza. de nature.com 2019-03-07
Horton, R. (2015). Fuera de línea: ¿cuál es la medicina 5 sigma? The Lancet, 385 (9976), 1380. de thelancet.com 2019-03-07
fuente
Por una razón completamente diferente a la de la física, hay otros campos con alfa mucho más estrictos cuando realizan pruebas de hipótesis. La Epidemiología Genética se encuentra entre ellos, especialmente cuando usan "GWAS" (Genome-Wide Association Study) para observar varios marcadores genéticos de enfermedades.
Debido a que un estudio GWAS es un ejercicio masivo en pruebas de hipótesis múltiples, las técnicas de análisis más avanzadas se basan en alfa mucho más estrictas que 0.05. Es probable que otras técnicas de estudio de "detección de candidatos" que siguen a los estudios de genómica hagan lo mismo.
fuente
El nivel es tan alto para evitar anuncios prematuros de noticias que luego resultan ser espurias. Para más discusión sobre esto, vea
https://physics.stackexchange.com/questions/8752/standard-deviation-in-particle-physics?rq=1
https://physics.stackexchange.com/questions/31126/how-many-sigma-did-the-discovery-of-the-w-boson-have
fuente