Con respecto a los valores p, ¿por qué 1% y 5%? ¿Por qué no 6% o 10%?

80

Con respecto al valor p , me pregunto por qué el % y el % parecen ser el estándar de oro para . ¿Por qué no otros valores, como % o %? $1$ $5$ "statistical significance" $6$ $10$

¿Existe una razón matemática fundamental para esto, o es solo una convención ampliamente celebrada?

hypothesis-testing statistical-significance p-value history Aplazamiento de pago
fuente

2

¿Y si todos tuvieran 12 dedos? Estaríamos contando la base 12, no la base 10. Y eso significa que el "1%" sería 1/144 o 0.0069444444.

Contango

77

Si revisa las referencias a continuación, encontrará bastante variación en el fondo, aunque hay algunos elementos comunes.

Esos números se basan al menos en parte en algunos comentarios de Fisher, donde dijo

(mientras discute un nivel de 1/20)

Es conveniente tomar este punto como límite para juzgar si una desviación se considera significativa o no. Las desviaciones que exceden el doble de la desviación estándar se consideran formalmente significativas

$\quad$ Fisher, RA (1925) Métodos estadísticos para investigadores , p. 47

Por otro lado, a veces era más amplio:

Si uno de cada veinte no parece tener suficientes probabilidades, podemos, si lo preferimos, trazar la línea en uno de cada cincuenta (el punto del 2 por ciento), o uno de cada cien (el punto del 1 por ciento). Personalmente, el escritor prefiere establecer un bajo estándar de significancia en el punto del 5% e ignorar por completo todos los resultados que no alcanzan este nivel. Un hecho científico debe considerarse como establecido experimentalmente solo si un experimento diseñado adecuadamente rara vez falla en dar este nivel de importancia.

$\quad$ Fisher, RA (1926) La disposición de los experimentos de campo . Revista del Ministerio de Agricultura, p. 504
$\quad$

Fisher también usó 5% para una de las tablas de su libro, pero la mayoría de sus otras tablas tenían una mayor variedad de niveles de significancia

Algunos de sus comentarios han sugerido enfoques más o menos estrictos (es decir, niveles alfa más bajos o más altos) en diferentes situaciones.

Ese tipo de discusión anterior condujo a una tendencia a producir tablas centradas en niveles de significancia de 5% y 1% (y a veces con otros, como 10%, 2% y 0.5%) por falta de cualquier otro valor 'estándar' para usar.

Sin embargo, en este documento , Cowles y Davis sugieren que el uso del 5%, o al menos algo similar, se remonta más allá del comentario de Fisher.

En resumen, nuestro uso del 5% (y en menor medida del 1%) es una convención bastante arbitraria, aunque claramente muchas personas parecen sentir que, por muchos problemas, están en el tipo correcto de estadio.

No hay ninguna razón para que un valor particular deba usarse en general.

Referencias adicionales:

Dallal, Gerard E. (2012). El pequeño manual de práctica estadística. - ¿Por qué 0.05?

Stigler, Stephen (diciembre de 2008). "Fisher y el nivel del 5%". Oportunidad 21 (4): 12. disponible aquí

(Entre ellos, obtienes una buena cantidad de antecedentes; parece que entre ellos hay un buen caso para pensar que los niveles de importancia al menos en el estadio general de 5%, digamos entre 2% y 10%, habían sido más o menos en el aire por un rato)

Glen_b
fuente

36

Tengo que dar una no respuesta (igual que aquí ):

"... seguramente, Dios ama el .06 casi tanto como el .05. ¿Puede haber alguna duda de que Dios ve la fuerza de la evidencia a favor o en contra del nulo como una función bastante continua de la magnitud de p?" (p.1277)

Rosnow, RL y Rosenthal, R. (1989). Procedimientos estadísticos y la justificación del conocimiento en la ciencia psicológica. Psicólogo estadounidense , 44 (10), 1276-1284. pdf

El documento contiene más discusión sobre este tema.

Henrik
fuente

99

¿Y qué hay de 0.055? :)

nico

33

@nico A nadie le gusta 0.055

Fomite

18

Creo que hay algo de psicología subyacente para el 5%. Tengo que decir que no recuerdo dónde lo recogí, pero aquí está el ejercicio que solía hacer con cada clase de introducción de estadísticas de pregrado.

Imagínese que un extraño se le acerca en un pub y le dice: "Tengo una moneda sesgada que produce caras con más frecuencia que colas. ¿Le gustaría comprarme una para poder apostar con sus amigos y ganar dinero con eso?" Usted vacilantemente acepta echar un vistazo y arrojar la moneda, por ejemplo, 10 veces. Pregunta : ¿cuántas veces tiene que aterrizar cara / cruz para convencerlo de que está sesgado?

Entonces tomo una mano: ¿quién estaría convencido de que la moneda está sesgada si la división es 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? Bueno, los primeros dos o tres no convencerán a nadie, y el último convencerá a todos; Sin embargo, 2/8 y 1/9 convencerían a la mayoría de las personas. Ahora, si busca la tabla binomial, 2/8 es 5.5% y 1/9 es 1%. QED

Si alguien está impartiendo un curso de pregrado en este momento, le animo a que también realice este ejercicio y publique sus resultados como comentarios, para que podamos acumular una gran cantidad de resultados de metanálisis y publicarlos al menos en The American Rincón de enseñanza del estadístico . ¡Siéntase libre de variar las condiciones y unilateral versus las de dos lados! $n$

En otra respuesta, Glen_b cita a Fisher explicando si estos números mágicos deberían modificarse dependiendo de la gravedad del problema, así que no lo hagas "Hay un nuevo tratamiento para la leucemia de tu hermana, pero la curaría 3 meses o matarla en 3 días, así que volteemos algunas monedas "- esto se vería tan tonto como el infame cómic xkcd que incluso a Andrew Gelman no le gustó tanto.

Hablando de monedas y Gelman, TAS tenía un papel muy curioso de Gelman y Nolan titulado "Puedes cargar un dado, pero no puedes sesgar una moneda" , argumentando que la moneda se volcó en el aire o giró sobre un sobre la mesa, pasará aproximadamente la mitad del tiempo cara a cara, y la otra vez, colapsará, por lo que es difícil encontrar un mecanismo físico para sesgar seriamente una moneda. (Esto claramente fue una investigación originada en un pub, ya que experimentaron con tapas de botellas de cerveza). Por otro lado, cargar un dado es algo relativamente fácil de hacer, y les di a mis estudiantes un ejercicio con aproximadamente 1 cm / medio pulgadas de cubos de madera de una tienda de pasatiempos local y papel de lija pidiéndoles que carguen el dado y que me demuestren que está cargado, lo cual fue un ejercicio en la prueba de Pearson para las proporciones y su poder. $\chi^2$

StasK
fuente

3

Los magos a menudo pueden controlar el lanzamiento de monedas. Estadístico-matemático-mago (permutar al gusto) Persi Diaconis es bien conocido por esto (y mucho, mucho más).

Nick Cox

@StasK - Hace unos años, hice una pregunta similar a lo que hay en tu segundo párrafo anterior. Aquí está el enlace: stats.stackexchange.com/questions/7036/…

bill_080

Bill, preguntaste sobre el poder, esencialmente. Esta pregunta aborda el nivel de la prueba.

StasK

9

El 5% parece haber sido redondeado del 4.56% por Fisher, correspondiente a "las áreas de la cola de la curva más allá de la media más tres o menos tres errores probables" (Hurlbert y Lombardi, 2009).

Otro elemento de la historia parece ser la reproducción de tablas con críticas vlaues (Pearson et al., 1990; Lehmann, 1993). Pearson no le dio permiso a Fisher para usar sus tablas (probablemente tanto por el marketing de Pearson de su propia publicación (Hurlbert y Lombardi, 2009) como por la naturaleza problemática de su relación.

Hurlbert, SH y Lombardi, CM (2009, octubre). Colapso final del marco teórico de decisión de Neyman-Pearson y surgimiento del neofisheriano. En Annales Zoologici Fennici (Vol. 46, No. 5, pp. 311-349). Publicación finlandesa de zoología y botánica

Lehmann, EL (1993). Las teorías de Fisher, Neyman-Pearson de las hipótesis de prueba: ¿una teoría o dos? Revista de la Asociación Americana de Estadística, 88 (424), 1242-1249.

Pearson, ES, Gosset, WS, Plackett, RL y Barnard, GA (1990). Estudiante: una biografía estadística de William Sealy Gosset. Oxford University Press, Estados Unidos.

Ver también: Gigerenzer, G. (2004). Estadísticas sin sentido. The Journal of Socio-Economics, 33 (5), 587-606.

Hubbard, R. y Lindsay, RM (2008). Por qué los valores de P no son una medida útil de la evidencia en las pruebas de significación estadística. Teoría y psicología, 18 (1), 69-88.

jank
fuente

7

Me parece que la respuesta está más en la teoría de la investigación del juego que en las estadísticas. Tener 1% y 5% quemados en la conciencia general significa que los investigadores no son efectivamente libres de elegir niveles de importancia que se adapten a sus predisposiciones. Digamos que vimos un artículo con un valor p de .055 y en el que el nivel de significancia se había establecido en 6%, se formularían preguntas. 1% y 5% proporcionan una forma de compromiso creíble.

conjeturas
fuente

77

Tal vez, pero ¿crees que los investigadores no manipulan regresiones, utilizar repetidas pruebas, etc., para meterse por debajo del nivel establecido del 5%, por ejemplo ...

Kirk

Por supuesto que es posible, y probablemente suceda. Pero la pregunta era del 1% y del 5%. Me parece que es un intento de establecer una convención social sobre cuándo aceptar algo tan significativo. Estos son arbitrarios, pero son arbitrarios para los investigadores como grupo en lugar de arbitrarios para los investigadores individuales.

conjeturas

3

De acuerdo, solo estaba señalando que tener niveles de significancia convencionales no significa que no se deban hacer preguntas, como inferiste en tu publicación. El hecho de que un documento presente un resultado significativo a nivel convencional no significa que sea creíble.

Kirk

Ah, estaba usando credibilidad en el sentido de la teoría de juegos (o intentando). De la misma manera, crees que una amenaza es creíble si no es algo de lo que puedas retroceder o cambiar de opinión más adelante. En este caso, los investigadores individuales tendrían dificultades para acercarse a algún otro umbral arbitrario.

conjeturas

2

A lo que se refiere @kirk definitivamente sucede. Se llama hacking .

p

$p$

Nick Stauner

6

Mi hipótesis personal es que 0.05 (o 1 en 20) está asociado con un valor at / z de (muy cercano a) 2. Usar 2 es bueno, porque es muy fácil detectar si su resultado es estadísticamente significativo. No hay otras confluencias de números redondos.

Jeremy Miles
fuente

77

Dudo que esto sea correcto. Por supuesto, hay "confluencias de números redondos": ¿por qué no utilizar un valor crítico de o , por ejemplo? Además, nadie se rehuía de hacer extensas tablas de valores críticos hace un siglo, por lo que es difícil ver de dónde vendría la motivación.

Z = 1

$Z=1$

Z = 3

$Z=3$

whuber

99

Por el contrario, ¡dan buenos números! Para una distribución normal, las posibilidades son aproximadamente , , y para . Todas estas aproximaciones son más precisas que una cifra significativa, y el "1 en 20" es el peor del grupo (1 en 22 estaría mucho más cerca de la verdad).

1 / 3

$1/3$

1 / 20

$1/20$

1 / 400

$1/400$

1 / 16000

$1/16000$

z = 1, 2, 3, 4

$z=1,2,3,4$

whuber

1

:) Hmm ... buen punto. Pero debe estar limitado por lo que usaría como punto de corte: 1/3 es un poco laxo, 1/400 un toque estricto.

Jeremy Miles

10

Eso es exactamente a lo que me refiero, Jeremy: la tradición de 5% y 1% se basa, al menos en parte, en un concepto de riesgo estadístico ("un poco laxo" o "estricto al tacto") y originalmente no derivar de cualquier regla práctica conveniente.

whuber

1

@whuber Usar da aproximadamente , ¡y no puedes obtener mucho más que eso!

Z = 1

$Z=1$

1 / π

$1/{\pi}$

James

6

El único número correcto es .04284731

... que es una respuesta frívola destinada a significar que la elección de .05 es esencialmente arbitraria. Por lo general, solo informo el valor p, en lugar de lo que el valor p es mayor o menor que.

La "importancia" es una variable continua y, en mi opinión, discretizarla a menudo hace más daño que bien. Quiero decir, si p = .13, tienes más confianza que si p = .21 y menos que si p = .003

genérico_usuario
fuente

Bueno, en los tiempos de las mesas uno estaba más o menos obligado a discretizar ... dado que las tablas se usan en la enseñanza, esto continúa ...

kjetil b halvorsen

@kjetilbhalvorsen bien, los fabricantes de mesas se equivocaron claramente al no elegir .04284731 por sus valores críticos.

generic_user

2

Esta es un área de prueba de hipótesis que siempre me ha fascinado. Específicamente porque un día alguien decidió un número arbitrario que dicotomizó el procedimiento de prueba y desde entonces la gente rara vez lo cuestiona.

Recuerdo que un profesor nos dijo que no confiáramos demasiado en la prueba Staiger y Stock de variables instrumentales (donde el F-stat debería estar por encima de 10 en la regresión de la primera etapa para evitar problemas de instrumentos débiles) porque el número 10 era un Elección completamente arbitraria. Recuerdo haber dicho "¿Pero no es eso lo que hacemos con las pruebas de hipótesis regulares?"

EconStats
fuente

55

¿Es esto una respuesta, @EconStats? Parece más como un comentario. Recuerde que CV no pretende ser un foro de discusión. ¿Te importaría hacer que la respuesta con esta publicación sea más destacada?

gung - Restablece a Monica

1

Lo siento @gung. Supongo que mi punto era que, a pesar de algunas de las pruebas proporcionadas por los otros usuarios, todavía creo que la respuesta más probable es que tenemos un sistema de numeración basado en decimales y que todavía se usa hoy para obtener números arbitrarios para las pruebas de hipótesis. por ejemplo, la prueba F Staiger y Stock que mencioné.

EconStats

1

Como el póster original de esta pregunta, creo que esto definitivamente califica como una respuesta. ¡Gracias!

Contango

0

¿Por qué 1 y 5? Porque se sienten bien.

Estoy seguro de que hay estudios sobre el valor emocional y la relevancia cognitiva de números específicos, pero podemos entender la elección de 1 y 5 sin tener que recurrir a la investigación.

Las personas que crearon las estadísticas de hoy nacieron, crecieron y viven en un mundo decimal. Por supuesto, hay sistemas de conteo no decimales, y es posible contar hasta doce usando las falanges, pero no es obvio de la misma manera que usar los dedos (que por lo tanto se llaman "dígitos", como los números ) Y aunque usted (y Fisher) pueden conocer los sistemas de conteo no decimales, el sistema decimal es y ha sido el sistema de conteo predominante para usted (y el mundo de Fisher) en los últimos cien años.

Pero, ¿por qué los números cinco y uno son especiales? Porque ambas son las divisiones más naturales de los diez básicos: un dedo, una mano (o: la mitad).

Ni siquiera tiene que ir tan lejos como para conceptualizar fracciones para obtener de diez a uno y cinco. El uno simplemente está allí, así como tu dedo simplemente está allí. Y reducir a la mitad algo es una operación mucho más simple que dividirlo en cualquier otra proporción. Cortar cualquier cosa en dos partes no requiere pensar, mientras que dividir por tres o cuatro ya es bastante complicado.

La mayoría de los sistemas monetarios actuales tienen monedas y billetes con valores como 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000. Algunos sistemas monetarios no tienen 2, 20 y 200, pero casi todos tienen esos principios en 1 y 5. Al mismo tiempo, la mayoría de los sistemas monetarios no tienen una moneda o billete que comience en 3, 4, 6, 7, 8 o 9. Interesante, ¿no? ¿Pero por qué es así?

Porque siempre necesitas diez de los 1 o dos de los 5 (o cinco de los 2) para llegar al siguiente pedido más grande. Calcular con dinero es muy simple: multiplicado por diez o el doble. Solo dos tipos de operaciones. Cada moneda que tienes es la mitad o la décima parte de la moneda del próximo pedido. Esos números se multiplican y suman fácilmente y bien.

Entonces, el 1 y el 5 han estado profundamente arraigados, desde su más temprana infancia, en Fisher y en cualquier otra persona que eligió los niveles de significancia como las divisiones más directas, más simples y más básicas de 10. Cualquier otro número necesita un argumento para ello, mientras que estos los números simplemente están ahí.

En ausencia de una forma objetiva de calcular el nivel de significancia apropiado para cada conjunto de datos individual, el uno y cinco simplemente se sienten bien.

fuente

"sin tener que recurrir a la investigación". Si bien creo que la respuesta es buena, esto la coloca firmemente en territorio de opinión. Daría mucha credibilidad y haría que la respuesta fuera más autorizada si hubiera fuentes para respaldar esto.

Momo

Con respecto a los valores p, ¿por qué 1% y 5%? ¿Por qué no 6% o 10%?

Respuestas: