Con respecto al valor p , me pregunto por qué el % y el % parecen ser el estándar de oro para . ¿Por qué no otros valores, como % o %?"statistical significance"
¿Existe una razón matemática fundamental para esto, o es solo una convención ampliamente celebrada?
hypothesis-testing
statistical-significance
p-value
history
Aplazamiento de pago
fuente
fuente
Respuestas:
Si revisa las referencias a continuación, encontrará bastante variación en el fondo, aunque hay algunos elementos comunes.
Esos números se basan al menos en parte en algunos comentarios de Fisher, donde dijo
(mientras discute un nivel de 1/20)
Por otro lado, a veces era más amplio:
Fisher también usó 5% para una de las tablas de su libro, pero la mayoría de sus otras tablas tenían una mayor variedad de niveles de significancia
Algunos de sus comentarios han sugerido enfoques más o menos estrictos (es decir, niveles alfa más bajos o más altos) en diferentes situaciones.
Ese tipo de discusión anterior condujo a una tendencia a producir tablas centradas en niveles de significancia de 5% y 1% (y a veces con otros, como 10%, 2% y 0.5%) por falta de cualquier otro valor 'estándar' para usar.
Sin embargo, en este documento , Cowles y Davis sugieren que el uso del 5%, o al menos algo similar, se remonta más allá del comentario de Fisher.
En resumen, nuestro uso del 5% (y en menor medida del 1%) es una convención bastante arbitraria, aunque claramente muchas personas parecen sentir que, por muchos problemas, están en el tipo correcto de estadio.
No hay ninguna razón para que un valor particular deba usarse en general.
Referencias adicionales:
Dallal, Gerard E. (2012). El pequeño manual de práctica estadística. - ¿Por qué 0.05?
Stigler, Stephen (diciembre de 2008). "Fisher y el nivel del 5%". Oportunidad 21 (4): 12. disponible aquí
(Entre ellos, obtienes una buena cantidad de antecedentes; parece que entre ellos hay un buen caso para pensar que los niveles de importancia al menos en el estadio general de 5%, digamos entre 2% y 10%, habían sido más o menos en el aire por un rato)
fuente
Tengo que dar una no respuesta (igual que aquí ):
Rosnow, RL y Rosenthal, R. (1989). Procedimientos estadísticos y la justificación del conocimiento en la ciencia psicológica. Psicólogo estadounidense , 44 (10), 1276-1284. pdf
El documento contiene más discusión sobre este tema.
fuente
Creo que hay algo de psicología subyacente para el 5%. Tengo que decir que no recuerdo dónde lo recogí, pero aquí está el ejercicio que solía hacer con cada clase de introducción de estadísticas de pregrado.
Entonces tomo una mano: ¿quién estaría convencido de que la moneda está sesgada si la división es 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? Bueno, los primeros dos o tres no convencerán a nadie, y el último convencerá a todos; Sin embargo, 2/8 y 1/9 convencerían a la mayoría de las personas. Ahora, si busca la tabla binomial, 2/8 es 5.5% y 1/9 es 1%. QED
Si alguien está impartiendo un curso de pregrado en este momento, le animo a que también realice este ejercicio y publique sus resultados como comentarios, para que podamos acumular una gran cantidad de resultados de metanálisis y publicarlos al menos en The American Rincón de enseñanza del estadístico . ¡Siéntase libre de variar las condiciones y unilateral versus las de dos lados!n
En otra respuesta, Glen_b cita a Fisher explicando si estos números mágicos deberían modificarse dependiendo de la gravedad del problema, así que no lo hagas "Hay un nuevo tratamiento para la leucemia de tu hermana, pero la curaría 3 meses o matarla en 3 días, así que volteemos algunas monedas "- esto se vería tan tonto como el infame cómic xkcd que incluso a Andrew Gelman no le gustó tanto.
Hablando de monedas y Gelman, TAS tenía un papel muy curioso de Gelman y Nolan titulado "Puedes cargar un dado, pero no puedes sesgar una moneda" , argumentando que la moneda se volcó en el aire o giró sobre un sobre la mesa, pasará aproximadamente la mitad del tiempo cara a cara, y la otra vez, colapsará, por lo que es difícil encontrar un mecanismo físico para sesgar seriamente una moneda. (Esto claramente fue una investigación originada en un pub, ya que experimentaron con tapas de botellas de cerveza). Por otro lado, cargar un dado es algo relativamente fácil de hacer, y les di a mis estudiantes un ejercicio con aproximadamente 1 cm / medio pulgadas de cubos de madera de una tienda de pasatiempos local y papel de lija pidiéndoles que carguen el dado y que me demuestren que está cargado, lo cual fue un ejercicio en la prueba de Pearson para las proporciones y su poder.χ2
fuente
El 5% parece haber sido redondeado del 4.56% por Fisher, correspondiente a "las áreas de la cola de la curva más allá de la media más tres o menos tres errores probables" (Hurlbert y Lombardi, 2009).
Otro elemento de la historia parece ser la reproducción de tablas con críticas vlaues (Pearson et al., 1990; Lehmann, 1993). Pearson no le dio permiso a Fisher para usar sus tablas (probablemente tanto por el marketing de Pearson de su propia publicación (Hurlbert y Lombardi, 2009) como por la naturaleza problemática de su relación.
Hurlbert, SH y Lombardi, CM (2009, octubre). Colapso final del marco teórico de decisión de Neyman-Pearson y surgimiento del neofisheriano. En Annales Zoologici Fennici (Vol. 46, No. 5, pp. 311-349). Publicación finlandesa de zoología y botánica
Lehmann, EL (1993). Las teorías de Fisher, Neyman-Pearson de las hipótesis de prueba: ¿una teoría o dos? Revista de la Asociación Americana de Estadística, 88 (424), 1242-1249.
Pearson, ES, Gosset, WS, Plackett, RL y Barnard, GA (1990). Estudiante: una biografía estadística de William Sealy Gosset. Oxford University Press, Estados Unidos.
Ver también: Gigerenzer, G. (2004). Estadísticas sin sentido. The Journal of Socio-Economics, 33 (5), 587-606.
Hubbard, R. y Lindsay, RM (2008). Por qué los valores de P no son una medida útil de la evidencia en las pruebas de significación estadística. Teoría y psicología, 18 (1), 69-88.
fuente
Me parece que la respuesta está más en la teoría de la investigación del juego que en las estadísticas. Tener 1% y 5% quemados en la conciencia general significa que los investigadores no son efectivamente libres de elegir niveles de importancia que se adapten a sus predisposiciones. Digamos que vimos un artículo con un valor p de .055 y en el que el nivel de significancia se había establecido en 6%, se formularían preguntas. 1% y 5% proporcionan una forma de compromiso creíble.
fuente
Mi hipótesis personal es que 0.05 (o 1 en 20) está asociado con un valor at / z de (muy cercano a) 2. Usar 2 es bueno, porque es muy fácil detectar si su resultado es estadísticamente significativo. No hay otras confluencias de números redondos.
fuente
El único número correcto es .04284731
... que es una respuesta frívola destinada a significar que la elección de .05 es esencialmente arbitraria. Por lo general, solo informo el valor p, en lugar de lo que el valor p es mayor o menor que.
La "importancia" es una variable continua y, en mi opinión, discretizarla a menudo hace más daño que bien. Quiero decir, si p = .13, tienes más confianza que si p = .21 y menos que si p = .003
fuente
Esta es un área de prueba de hipótesis que siempre me ha fascinado. Específicamente porque un día alguien decidió un número arbitrario que dicotomizó el procedimiento de prueba y desde entonces la gente rara vez lo cuestiona.
Recuerdo que un profesor nos dijo que no confiáramos demasiado en la prueba Staiger y Stock de variables instrumentales (donde el F-stat debería estar por encima de 10 en la regresión de la primera etapa para evitar problemas de instrumentos débiles) porque el número 10 era un Elección completamente arbitraria. Recuerdo haber dicho "¿Pero no es eso lo que hacemos con las pruebas de hipótesis regulares?"
fuente
¿Por qué 1 y 5? Porque se sienten bien.
Estoy seguro de que hay estudios sobre el valor emocional y la relevancia cognitiva de números específicos, pero podemos entender la elección de 1 y 5 sin tener que recurrir a la investigación.
Las personas que crearon las estadísticas de hoy nacieron, crecieron y viven en un mundo decimal. Por supuesto, hay sistemas de conteo no decimales, y es posible contar hasta doce usando las falanges, pero no es obvio de la misma manera que usar los dedos (que por lo tanto se llaman "dígitos", como los números ) Y aunque usted (y Fisher) pueden conocer los sistemas de conteo no decimales, el sistema decimal es y ha sido el sistema de conteo predominante para usted (y el mundo de Fisher) en los últimos cien años.
Pero, ¿por qué los números cinco y uno son especiales? Porque ambas son las divisiones más naturales de los diez básicos: un dedo, una mano (o: la mitad).
Ni siquiera tiene que ir tan lejos como para conceptualizar fracciones para obtener de diez a uno y cinco. El uno simplemente está allí, así como tu dedo simplemente está allí. Y reducir a la mitad algo es una operación mucho más simple que dividirlo en cualquier otra proporción. Cortar cualquier cosa en dos partes no requiere pensar, mientras que dividir por tres o cuatro ya es bastante complicado.
La mayoría de los sistemas monetarios actuales tienen monedas y billetes con valores como 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000. Algunos sistemas monetarios no tienen 2, 20 y 200, pero casi todos tienen esos principios en 1 y 5. Al mismo tiempo, la mayoría de los sistemas monetarios no tienen una moneda o billete que comience en 3, 4, 6, 7, 8 o 9. Interesante, ¿no? ¿Pero por qué es así?
Porque siempre necesitas diez de los 1 o dos de los 5 (o cinco de los 2) para llegar al siguiente pedido más grande. Calcular con dinero es muy simple: multiplicado por diez o el doble. Solo dos tipos de operaciones. Cada moneda que tienes es la mitad o la décima parte de la moneda del próximo pedido. Esos números se multiplican y suman fácilmente y bien.
Entonces, el 1 y el 5 han estado profundamente arraigados, desde su más temprana infancia, en Fisher y en cualquier otra persona que eligió los niveles de significancia como las divisiones más directas, más simples y más básicas de 10. Cualquier otro número necesita un argumento para ello, mientras que estos los números simplemente están ahí.
En ausencia de una forma objetiva de calcular el nivel de significancia apropiado para cada conjunto de datos individual, el uno y cinco simplemente se sienten bien.
fuente