Tengo dos muestras bastante pequeñas ( para cada una) y obtengo una potencia de prueba t de dos muestras para ellas 0.49, que es relativamente pequeña (calculada por R ). Sin embargo, la prueba t de Welch Two Sample da un valor p de aquí, por lo que la hipótesis nula puede ser rechazada.power.t.test()
¿Ahora debería molestarme que el poder es pequeño?
Entiendo que power = donde es la probabilidad de error de Tipo II. Aquí significa que mi prueba no podría rechazar H0 en aproximadamente el 50% de los casos en que debería rechazarse, por lo que debería preocuparme especialmente cuando mis muestras particulares no podían rechazar H0. Pero en el caso de mis muestras en particular, parece que tengo suerte y mi prueba t, que me falta un poco de potencia, logró rechazar, por lo que no necesito preocuparme por la beta y puedo disfrutar de poder mostrar una diferencia significativa en la muestra medio.
¿Es correcta mi interpretación? ¿O extraño algo importante?
Respuestas:
En un sentido estricto, tienes razón. El poder es la oportunidad de rechazar correctamente una hipótesis nula falsa, por lo que tenía una pequeña posibilidad pero pudo hacerlo de todos modos.
Sin embargo, desde una perspectiva de actualización de creencias bayesianas, "reducir el poder implica reducir el cambio de creencias que se justifica al observar un resultado estadísticamente significativo (McClelland et al. 2015)". Piénselo de esta manera: si le dijera que encuesté a 30,000 personas del público en general y descubrí que, contrariamente a las cifras de ventas, a la gente le gusta más Pepsi que Coca-Cola, eso sería muy convincente. Encontré un resultado después de estudiar el 1% de una población (es decir, el público en general de EE. UU.). Es probable que se generalice a la población más grande. Si encuestara a 7 personas y encontrara lo mismo, incluso si fuera estadísticamente significativo, no convencería a nadie. Puede argumentar muchas razones para eso (no puede obtener una muestra representativa, es posible que no se cumplan los supuestos ANOVA / regresión, etc.), pero qué ' Lo importante es que alto poder significa altamente persuasivo (y debe ser tan crítico o más de sus resultados como aquellos que está tratando de convencer). Para las matemáticas bayesianas, así como una explicación más detallada, puede consultar cualquiera de los siguientes.
Además, Ioannidis (2005) proporciona algunos argumentos convincentes para los resultados de baja potencia que reflejan errores de tipo I incluso en ausencia de piratería y otros sesgos que a menudo resultan de baja potencia (y el documento es de acceso abierto en caso de que no trabaje para una universidad o algo similar!
fuente
Depende de cómo se realizó el análisis de potencia. En términos generales, existe una relación entre cuatro variables (alfa, potencia, el tamaño del efecto y ) de modo que si estipula cualquiera de las tres, puede resolver la cuarta.N
Por lo general, cuando las personas realizan un análisis de potencia después de analizar sus datos, realizan un análisis de potencia post-hoc (de ahí el nombre), lo que significa que conectan su valor para alfa, su tamaño de efecto observado y su , para resolver la potencia. . Ciertamente, no tiene que hacerlo de esa manera (podría hacerlo de antemano con un tamaño de efecto teóricamente sugerido y el que sabe estará disponible para usted), pero si lo hace, los resultados se perderán en gran medida. Específicamente, si su resultado fue significativo, la potencia será , y si su resultado no fue significativo, la potencia será .N N >50% <50%
Eso no parece ser exactamente lo que encontraste. Una posibilidad es que exista una discrepancia sutil entre los métodos utilizados en su prueba y los del análisis de potencia. Esto se sugiere por el hecho de que su valor observado es cercano a y su potencia calculada es cercana al , a pesar de que están en diferentes lados de la línea. Otra posibilidad es que haya usado un tamaño de efecto ligeramente diferente al que encontró.p .05 50%
Entonces, "¿[debería] molestarte [que] el poder es pequeño?" Si y no. Si hicieras un análisis de poder post-hoc tradicional (inválido), necesariamente obtendrías valores como ese: el ejercicio fue completamente poco informativo. Por otro lado, si tomamos en serio el análisis de potencia, un efecto significativo con una configuración de baja potencia básicamente significa que su efecto observado debe ser sesgado para que sea más grande de lo que realmente es, por lo que debe confiar menos en los resultados.
fuente
Denote el valor de su prueba (como una variable aleatoria) y arregle algunos . Llame a un resultado de prueba significativo o positivo cuando . Tenemos . Además, dejemos que sea tal que . Entonces es el poder de la prueba.p p α p≤α P(p≤α|H0)≤α β P(p>α|H1)≤β 1−β
Tratando y como eventos (complementarios), el teorema de Bayes da: Esto muestra que las cuotas posteriores para son una versión escalada de las cuotas anteriores, con la fortaleza de la escala a favor de aumenta con . Esto significa que aprendemos más de una prueba positiva cuando es grande.H0 H1
Para más ilustración, mire los intervalos de confianza (IC). Se puede argumentar que un tamaño de muestra más grande hará que el IC sea más estrecho y, por lo tanto, si la prueba fue significativa para una muestra más pequeña, también será significativa para la muestra más grande. Sin embargo, también la ubicación del IC puede cambiar cuando incluimos más datos en nuestra muestra, lo que puede hacer que el resultado no sea significativo. También es concebible que la muestra más grande tenga un error estándar mucho mayor y, por lo tanto, el IC se ampliará de hecho. Se podría decir que un tamaño de muestra más grande les da a los hechos más oportunidades para probarse a sí mismos.
Ha habido una discusión interesante últimamente sobre la interpretación dep -valores, ver, por ejemplo:
[1] Colquhoun, "Una investigación de la tasa de descubrimiento falso y la mala interpretación de los valores p", Royal Society Open Science, 2014
[2] Colquhoun, "La reproducibilidad de la investigación y la mala interpretación de los valores P", 2017, http://www.biorxiv.org/content/early/2017/08/07/144337
[3] "¿Qué diría Cohen? Un comentario sobrep<.005 ", https://replicationindex.wordpress.com/2017/08/02/what-would-cohen-say-a-comment-on-p-005/
Con respecto a su resultado particular, no estoy calificado para juzgarlo. Usando solo tup -valor y la clasificación de [2], se encuentra entre "evidencia débil: vale la pena mirar de nuevo" y "evidencia moderada para un efecto real".
fuente