El consenso general sobre una pregunta similar, ¿es incorrecto referirse a los resultados como "altamente significativos"? es que "altamente significativo" es una forma válida, aunque no específica, de describir la fuerza de una asociación que tiene un valor p muy por debajo de su umbral de significancia preestablecido. Sin embargo, ¿qué pasa con la descripción de valores p que están ligeramente por encima de su umbral? He visto que algunos artículos usan términos como "algo significativo", "casi significativo", "significado cercano", etc. Considero que estos términos son un poco flojos, en algunos casos una forma falsa limítrofe para sacar un resultado significativo de un estudio con resultados negativos. ¿Son aceptables estos términos para describir los resultados que "simplemente omiten" su valor de corte p?
fuente
Respuestas:
Si desea permitir que "significancia" admita grados, entonces es lo suficientemente justo ("algo significativo", "bastante significativo"), pero evite frases que sugieran que todavía está casado con la idea de un umbral, como "casi significativo" , "acercarse a la importancia" o "en la cúspide de la importancia" (mi favorito de "Todavía no es significativo" en el blog Error probable ), si no quieres parecer desesperado.
fuente
Desde mi perspectiva, el problema se reduce a lo que realmente significa llevar a cabo una prueba de significación. La prueba de significación se ideó como un medio para tomar la decisión de rechazar la hipótesis nula o no rechazarla. El propio Fisher introdujo la infame regla 0.05 para tomar esa decisión (arbitraria).
Básicamente, la lógica de las pruebas de significación es que el usuario tiene que especificar un nivel alfa para rechazar la hipótesis nula (convencionalmente 0.05) antes de recopilar los datos . Después de completar la prueba de significación, el usuario rechaza el valor nulo si el valor p es menor que el nivel alfa (o no lo rechaza de otra manera).
La razón por la que no puede declarar que un efecto es altamente significativo (digamos, en el nivel 0.001) es porque no puede encontrar evidencia más fuerte de lo que se propuso encontrar. Entonces, si establece su nivel alfa en 0.05 antes de la prueba, solo puede encontrar evidencia en el nivel 0.05, independientemente de cuán pequeños sean sus valores de p. Del mismo modo, hablar de efectos que son "algo significativos" o "aproximados a la importancia" tampoco tiene mucho sentido porque eligió este criterio arbitrario de 0.05. Si interpreta la lógica de las pruebas de significación de manera muy literal, cualquier cosa mayor que 0.05 no es significativa.
Estoy de acuerdo en que términos como "acercamiento a la importancia" a menudo se utilizan para mejorar las perspectivas de publicación. Sin embargo, no creo que se pueda culpar a los autores de eso porque la cultura de publicación actual en algunas ciencias todavía depende en gran medida del "santo grial" de 0.05.
Algunos de estos temas se discuten en:
Gigerenzer, G. (2004). Estadísticas sin sentido. The Journal of Socio-Economics, 33 (5), 587-606.
Royall, R. (1997). Evidencia estadística: un paradigma de probabilidad (Vol. 71). Prensa CRC.
fuente
Esta pendiente resbaladiza llama al marco de Fisher vs Neyman / Pearson para la prueba de significación de hipótesis nula (NHST). Por un lado, uno quiere hacer una evaluación cuantitativa de cuán improbable es un resultado bajo la hipótesis nula (por ejemplo, los tamaños del efecto). Por otro lado, al final del día, desea una decisión discreta sobre si sus resultados son, o no, probablemente debidos solo al azar. Con lo que terminamos es un tipo de enfoque híbrido que no es muy satisfactorio.
En la mayoría de las disciplinas, la p convencional para la significación se establece en 0.05, pero en realidad no hay base para por qué esto debe ser así. Cuando reviso un artículo, no tengo absolutamente ningún problema con un autor que llama 0.06 significativo, o incluso 0.07, siempre que la metodología sea sólida y que la imagen completa, incluidos todos los análisis, figuras, etc. cuente una historia consistente y creíble. Donde se encuentran problemas es cuando los autores intentan hacer una historia con datos triviales con tamaños de efectos pequeños. Por el contrario, es posible que no 'crea' completamente que una prueba es prácticamente significativa, incluso cuando alcanza una significancia convencional p <0.05. Un colega mío dijo una vez: "Sus estadísticas simplemente deberían respaldar lo que ya es evidente en sus cifras".
Dicho todo esto, creo que Vasilev tiene razón. Dado el sistema de publicación descompuesto, debe incluir valores de p, y por lo tanto, debe usar la palabra 'significativo' para ser tomado en serio, incluso si requiere adjetivos como "marginalmente" (que prefiero). Siempre puedes luchar en la revisión por pares, pero primero debes llegar allí.
fuente
La diferencia entre dos valores de p en sí normalmente no es significativa. Por lo tanto, no importa si su valor p es 0.05, 0.049, 0.051 ...
Con respecto a los valores p como una medida de la fuerza de asociación: Un valor p no es directamente una medida de la fuerza de asociación. Un valor p es la probabilidad de encontrar datos tan extremos o más extremos como los datos que ha observado, dado que el parámetro tiene la hipótesis de que es 0 (si está interesado en la hipótesis nula, vea el comentario de Nick Cox). Sin embargo, esta no es la cantidad que le interesa al investigador. Muchos investigadores están más bien interesados en responder preguntas como "¿cuál es la probabilidad de que el parámetro sea mayor que algún valor de corte elegido?" Si esto es lo que le interesa, debe incorporar información previa adicional en su modelo.
fuente
fuente
Tiendo a pensar que decir que algo es casi estadísticamente significativo no es correcto desde un punto de vista técnico. Una vez que establece su nivel de tolerancia, se establece la prueba estadística de significación. Debe volver a la idea de muestrear distribuciones. Si su nivel de tolerancia es de 0.05 y obtiene un valor p de 0.053, entonces es por casualidad que la muestra utilizada arrojó esa estadística. Es muy posible que obtenga otra muestra que no produzca los mismos resultados. Creo que la probabilidad de que eso ocurra se basa en el nivel de tolerancia establecido y no en el estadístico de la muestra. Recuerde que está probando muestras con un parámetro de población y que las muestras tienen su propia distribución de muestreo. Entonces, en mi opinión, o algo es estadísticamente significativo o no lo es.
fuente
El valor p se distribuye uniformemente en[ 0 , 1 ] debajo H0 0 por lo tanto, obtener un resultado con un valor p de 0.051 es tan probable como obtener un resultado con un valor p de 1. Dado que debe establecer el nivel de significancia antes de obtener los datos, rechaza el valor nulo para cada valor p p > α . Dado que no rechaza su valor nulo, debe asumir un valor p distribuido uniformemente, un valor más alto o más bajo esencialmente no tiene sentido.
Esta es una historia completamente diferente cuando rechaza el valor nulo, ya que el valor p no se distribuye uniformemente bajoH1 pero la distribución depende del parámetro.
Ver por ejemplo Wikipedia .
fuente