¿Es incorrecto referirse a los resultados como "casi" o "algo" significativo?

13

El consenso general sobre una pregunta similar, ¿es incorrecto referirse a los resultados como "altamente significativos"? es que "altamente significativo" es una forma válida, aunque no específica, de describir la fuerza de una asociación que tiene un valor p muy por debajo de su umbral de significancia preestablecido. Sin embargo, ¿qué pasa con la descripción de valores p que están ligeramente por encima de su umbral? He visto que algunos artículos usan términos como "algo significativo", "casi significativo", "significado cercano", etc. Considero que estos términos son un poco flojos, en algunos casos una forma falsa limítrofe para sacar un resultado significativo de un estudio con resultados negativos. ¿Son aceptables estos términos para describir los resultados que "simplemente omiten" su valor de corte p?

Wang nuclear
fuente
3
No creo que nadie sugiriera "importancia" calificativa para describir la "fuerza de una asociación"; este último suena más como una medida del tamaño del efecto. De todos modos, mira aquí para obtener una lista más completa.
Scortchi - Restablece a Monica
1
@Scortchi: desde mi punto de vista, un valor p muy pequeño es muy significativo, lo que significa una fuerte asociación entre la variable en cuestión y el objetivo. Este es el resultado de un gran tamaño de efecto, una gran cantidad de datos o ambos. Para valores p grandes, la evidencia que respalda una asociación entre variable y objetivo es débil. Además, ama esa lista en tu enlace.
Nuclear Wang
99
La obtención de un valor p muy pequeño para un tamaño de efecto pequeño apenas podría llamarse una "asociación fuerte". Solo sería una asociación detectable .
whuber
2
Sin embargo, he visto a personas que usan mucho estas frases en la industria, no en artículos académicos.
Aksakal
1
Quizás su incomodidad proviene de creer que los valores p (o cualquier otro número derivado de una muestra) son medidas agudas de algo.
Eric Towers

Respuestas:

14

Si desea permitir que "significancia" admita grados, entonces es lo suficientemente justo ("algo significativo", "bastante significativo"), pero evite frases que sugieran que todavía está casado con la idea de un umbral, como "casi significativo" , "acercarse a la importancia" o "en la cúspide de la importancia" (mi favorito de "Todavía no es significativo" en el blog Error probable ), si no quieres parecer desesperado.

Scortchi - Restablece a Monica
fuente
99
(+1) para el enlace. Pero creo que lo más destacado de la creatividad poética es "tambalearse al borde de la importancia (p = 0.06)" .
Alecos Papadopoulos
1
@AlecosPapadopoulos: Tienes razón, aunque "coquetear con los niveles convencionales de significancia" y "acercarse a la significación estadística" merecen menciones honoríficas. "Cuasi-significativo" es quizás un ganador en una categoría diferente.
Scortchi - Restablece a Monica
44
De hecho, los dos primeros son de verdadero espíritu cinematográfico, el primero de la película "Statistical Gigolo" (¿quién más coquetearía con un nivel convencional ?), Mientras que el segundo de la película "Dying on the Tail", donde vemos al buitre amenazante (valor p) flotando sobre el héroe moribundo (significación estadística).
Alecos Papadopoulos
1
Personalmente, abandonaría la palabra 'significativo' en mi fraseo y llamaría p = 0.06 'bastante interesante'. Bien o mal, cuando encontré por primera vez los valores p dentro de un curso Six Sigma, el instructor sugirió que para 0.05 <= 0.1 la etiqueta correcta era "se requieren más datos" (basado en un entorno industrial donde los puntos de datos adicionales son difíciles de adquirir , tan completamente diferente a cualquier escenario de 'Big Data'
Robert de Graaf
6

Desde mi perspectiva, el problema se reduce a lo que realmente significa llevar a cabo una prueba de significación. La prueba de significación se ideó como un medio para tomar la decisión de rechazar la hipótesis nula o no rechazarla. El propio Fisher introdujo la infame regla 0.05 para tomar esa decisión (arbitraria).

Básicamente, la lógica de las pruebas de significación es que el usuario tiene que especificar un nivel alfa para rechazar la hipótesis nula (convencionalmente 0.05) antes de recopilar los datos . Después de completar la prueba de significación, el usuario rechaza el valor nulo si el valor p es menor que el nivel alfa (o no lo rechaza de otra manera).

La razón por la que no puede declarar que un efecto es altamente significativo (digamos, en el nivel 0.001) es porque no puede encontrar evidencia más fuerte de lo que se propuso encontrar. Entonces, si establece su nivel alfa en 0.05 antes de la prueba, solo puede encontrar evidencia en el nivel 0.05, independientemente de cuán pequeños sean sus valores de p. Del mismo modo, hablar de efectos que son "algo significativos" o "aproximados a la importancia" tampoco tiene mucho sentido porque eligió este criterio arbitrario de 0.05. Si interpreta la lógica de las pruebas de significación de manera muy literal, cualquier cosa mayor que 0.05 no es significativa.

Estoy de acuerdo en que términos como "acercamiento a la importancia" a menudo se utilizan para mejorar las perspectivas de publicación. Sin embargo, no creo que se pueda culpar a los autores de eso porque la cultura de publicación actual en algunas ciencias todavía depende en gran medida del "santo grial" de 0.05.

Algunos de estos temas se discuten en:

Gigerenzer, G. (2004). Estadísticas sin sentido. The Journal of Socio-Economics, 33 (5), 587-606.

Royall, R. (1997). Evidencia estadística: un paradigma de probabilidad (Vol. 71). Prensa CRC.

Martin R. Vasilev
fuente
1
Está mezclando la filosofía de la ciencia de Fisher con el enfoque de Neyman / Pearson si agrega un nivel alfa a las pruebas de significado de Fisher.
RBirkelbach
5

Esta pendiente resbaladiza llama al marco de Fisher vs Neyman / Pearson para la prueba de significación de hipótesis nula (NHST). Por un lado, uno quiere hacer una evaluación cuantitativa de cuán improbable es un resultado bajo la hipótesis nula (por ejemplo, los tamaños del efecto). Por otro lado, al final del día, desea una decisión discreta sobre si sus resultados son, o no, probablemente debidos solo al azar. Con lo que terminamos es un tipo de enfoque híbrido que no es muy satisfactorio.

En la mayoría de las disciplinas, la p convencional para la significación se establece en 0.05, pero en realidad no hay base para por qué esto debe ser así. Cuando reviso un artículo, no tengo absolutamente ningún problema con un autor que llama 0.06 significativo, o incluso 0.07, siempre que la metodología sea sólida y que la imagen completa, incluidos todos los análisis, figuras, etc. cuente una historia consistente y creíble. Donde se encuentran problemas es cuando los autores intentan hacer una historia con datos triviales con tamaños de efectos pequeños. Por el contrario, es posible que no 'crea' completamente que una prueba es prácticamente significativa, incluso cuando alcanza una significancia convencional p <0.05. Un colega mío dijo una vez: "Sus estadísticas simplemente deberían respaldar lo que ya es evidente en sus cifras".

Dicho todo esto, creo que Vasilev tiene razón. Dado el sistema de publicación descompuesto, debe incluir valores de p, y por lo tanto, debe usar la palabra 'significativo' para ser tomado en serio, incluso si requiere adjetivos como "marginalmente" (que prefiero). Siempre puedes luchar en la revisión por pares, pero primero debes llegar allí.

HEITZ
fuente
5

La diferencia entre dos valores de p en sí normalmente no es significativa. Por lo tanto, no importa si su valor p es 0.05, 0.049, 0.051 ...

Con respecto a los valores p como una medida de la fuerza de asociación: Un valor p no es directamente una medida de la fuerza de asociación. Un valor p es la probabilidad de encontrar datos tan extremos o más extremos como los datos que ha observado, dado que el parámetro tiene la hipótesis de que es 0 (si está interesado en la hipótesis nula, vea el comentario de Nick Cox). Sin embargo, esta no es la cantidad que le interesa al investigador. Muchos investigadores están más bien interesados ​​en responder preguntas como "¿cuál es la probabilidad de que el parámetro sea mayor que algún valor de corte elegido?" Si esto es lo que le interesa, debe incorporar información previa adicional en su modelo.

RBirkelbach
fuente
66
Estoy de acuerdo con el espíritu de esto, pero la letra pequeña como siempre necesita vigilancia total. "dado que el parámetro se supone que es 0": a menudo, pero no siempre. Los valores P también se pueden calcular para otras hipótesis. Además, para "supuesto", lea "hipotetizado".
Nick Cox
Tienes toda la razón: ¡editaré mi respuesta!
RBirkelbach
3

p<αp>α(no fuerza de efecto, por supuesto). Para tal "continualista", "casi significativo" es una forma sensata de describir un resultado con un valor p moderado. El problema surge cuando las personas mezclan estas dos filosofías, o peor, no son conscientes de que ambas existen. (Por cierto, la gente a menudo asume estos mapas limpiamente en Neyman / Pearson y Fisher, pero no lo hacen; de ahí mis términos ciertamente torpes para ellos). Más detalles sobre esto en una publicación de blog sobre este tema aquí: https://scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-significant-ridiculous/

Stephen escuchó
fuente
1

Tiendo a pensar que decir que algo es casi estadísticamente significativo no es correcto desde un punto de vista técnico. Una vez que establece su nivel de tolerancia, se establece la prueba estadística de significación. Debe volver a la idea de muestrear distribuciones. Si su nivel de tolerancia es de 0.05 y obtiene un valor p de 0.053, entonces es por casualidad que la muestra utilizada arrojó esa estadística. Es muy posible que obtenga otra muestra que no produzca los mismos resultados. Creo que la probabilidad de que eso ocurra se basa en el nivel de tolerancia establecido y no en el estadístico de la muestra. Recuerde que está probando muestras con un parámetro de población y que las muestras tienen su propia distribución de muestreo. Entonces, en mi opinión, o algo es estadísticamente significativo o no lo es.

Chris Kwaramba
fuente
0

El valor p se distribuye uniformemente en [0 0,1] debajo H0 0 por lo tanto, obtener un resultado con un valor p de 0.051 es tan probable como obtener un resultado con un valor p de 1. Dado que debe establecer el nivel de significancia antes de obtener los datos, rechaza el valor nulo para cada valor p pag>α. Dado que no rechaza su valor nulo, debe asumir un valor p distribuido uniformemente, un valor más alto o más bajo esencialmente no tiene sentido.

Esta es una historia completamente diferente cuando rechaza el valor nulo, ya que el valor p no se distribuye uniformemente bajo H1 pero la distribución depende del parámetro.

Ver por ejemplo Wikipedia .

snaut
fuente
No te sigo del todo. Sí, en cualquier distribución continua, la probabilidad de obtener un resultado de exactamente 0.051 es igual a la probabilidad de obtener un resultado de exactamente 1: es cero. Pero las pruebas de hipótesis examinan la probabilidad de ver un valor al menos tan extremo como el observado. Siempre encontrará un valor p al menos tan extremo como 1, pero es mucho menos probable que vea un valor p tan extremo como 0.051. ¿Qué hace que esa diferencia sea "sin sentido"?
Nuclear Wang el
Bajo nulo es tan probable observar un valor p en el intervalo [0.05,0.051] como observar un valor p en el intervalo [0.999,1]. Observar un valor p más cercano al umbral no es más evidencia contra el 0 que observar cualquier otro valor p fuera del área de rechazo.
Snaut
Algunos llaman un valor p de 0.05 significativo, otros usan 0.01 o 0.1 como umbral. Entonces, entre 3 investigadores que hacen el mismo análisis y encuentran un valor p de 0.03, dos podrían llamarlo significativo y uno podría no serlo. Si todos encuentran un valor p de 0.91, ninguno lo considerará significativo. Un valor p más cercano al umbral significa que más personas considerarán que hay evidencia suficiente para rechazar el nulo. No veo por qué p = 0.051 y p = 1 deberían ser indistinguibles en términos de soporte para H1: algunas personas justificadamente apoyarán H1 con p = 0.051; nadie lo hará con p = 1.
Nuclear Wang el