¿Debería molestarme que la potencia de la prueba t es relativamente pequeña cuando H0 ya es rechazada?

8

Tengo dos muestras bastante pequeñas ( para cada una) y obtengo una potencia de prueba t de dos muestras para ellas 0.49, que es relativamente pequeña (calculada por R ). Sin embargo, la prueba t de Welch Two Sample da un valor p de aquí, por lo que la hipótesis nula puede ser rechazada.n=7power.t.test()0.032

¿Ahora debería molestarme que el poder es pequeño?

Entiendo que power = donde es la probabilidad de error de Tipo II. Aquí significa que mi prueba no podría rechazar H0 en aproximadamente el 50% de los casos en que debería rechazarse, por lo que debería preocuparme especialmente cuando mis muestras particulares no podían rechazar H0. Pero en el caso de mis muestras en particular, parece que tengo suerte y mi prueba t, que me falta un poco de potencia, logró rechazar, por lo que no necesito preocuparme por la beta y puedo disfrutar de poder mostrar una diferencia significativa en la muestra medio.1ββ

¿Es correcta mi interpretación? ¿O extraño algo importante?

jrx1301
fuente
2
La potencia es algo que debe calcular antes de diseñar un experimento, para elegir la escala de experimento necesaria para detectar una diferencia de cierta magnitud. No sirve de mucho calcularlo después.
EdM
Rechazas por una de dos razones; su nulo es falso o cometió un error tipo I. Si el valor nulo tiene alguna posibilidad de ser cierto, cuanto menor sea su poder, mayor será la probabilidad de que haya cometido un error tipo I. Sin embargo, si está calculando la potencia en función del tamaño del efecto observado , tenga cuidado, debe tener mucho cuidado al trabajar con eso; no se comporta como cabría esperar.
Glen_b -Reinstate a Monica el

Respuestas:

5

En un sentido estricto, tienes razón. El poder es la oportunidad de rechazar correctamente una hipótesis nula falsa, por lo que tenía una pequeña posibilidad pero pudo hacerlo de todos modos.

Sin embargo, desde una perspectiva de actualización de creencias bayesianas, "reducir el poder implica reducir el cambio de creencias que se justifica al observar un resultado estadísticamente significativo (McClelland et al. 2015)". Piénselo de esta manera: si le dijera que encuesté a 30,000 personas del público en general y descubrí que, contrariamente a las cifras de ventas, a la gente le gusta más Pepsi que Coca-Cola, eso sería muy convincente. Encontré un resultado después de estudiar el 1% de una población (es decir, el público en general de EE. UU.). Es probable que se generalice a la población más grande. Si encuestara a 7 personas y encontrara lo mismo, incluso si fuera estadísticamente significativo, no convencería a nadie. Puede argumentar muchas razones para eso (no puede obtener una muestra representativa, es posible que no se cumplan los supuestos ANOVA / regresión, etc.), pero qué ' Lo importante es que alto poder significa altamente persuasivo (y debe ser tan crítico o más de sus resultados como aquellos que está tratando de convencer). Para las matemáticas bayesianas, así como una explicación más detallada, puede consultar cualquiera de los siguientes.

Abelson, R. P. (2012). Statistics as principled argument. Psychology Press.

Brinberg, D., Lynch Jr, J. G., & Sawyer, A. G. (1992). Hypothesized and confounded explanations in theory tests: A Bayesian analysis. Journal of Consumer Research, 139-154.

McClelland, G., Lynch, J. G., Irwin, J. R., Spiller, S. A., & Fitzsimons, G. J. (2015). Median Splits, Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power. Type II Errors, and False Positive Consumer Psychology: Don't Fight the Power (March 10, 2015).

Además, Ioannidis (2005) proporciona algunos argumentos convincentes para los resultados de baja potencia que reflejan errores de tipo I incluso en ausencia de piratería y otros sesgos que a menudo resultan de baja potencia (y el documento es de acceso abierto en caso de que no trabaje para una universidad o algo similar!

le_andrew
fuente
¡Muchas gracias por tu respuesta! Definitivamente revisaré McClelland e Ioannidis (sé que este es un artículo bastante popular). Su ejemplo con la encuesta de Pepsi-Coca-Cola definitivamente tiene sentido, así que solo estoy tratando de establecer un paralelismo con mi situación: mis muestras están relacionadas con el número de recaídas de pacientes con esquizofrenia en una población observada durante más de 7 años en dos meses comparados ( por ejemplo, enero frente a julio). Por lo tanto, no hay ninguna posibilidad de mejorar el protocolo experimental, como acercarse a más personas. Me preguntaba si ya puedo decir algo de los datos que ya tengo.
jrx1301
1
Definitivamente puedes. El problema es con la interpretación, no con las estadísticas. Algunas personas tomarían su resultado y concluirían: "¡He resuelto la esquizofrenia!" o menos dramáticamente "¡Tengo un resultado significativo, por lo tanto, mi teoría es cierta y se aplica a todos!" Es probable que tenga evidencia que respalde una teoría, pero puede cuestionarse cuán generalizable es. Considere cosas como la población real de la que tomó la muestra, es decir, en realidad no tomó muestras de la población de "pacientes con esquizofrenia" sino de una subpoblación más pequeña. La generalización al pop'n más grande requiere argumentos extra estadísticos.
le_andrew
Si encuestó a n = 30,000 personas pero solo obtuvo p = 0.032 (como en el OP) para la diferencia Pepsi / Coca-Cola, no veo por qué esto es más convincente que obtener el mismo valor p con solo un puñado de personas. Cualquier tamaño de efecto significativo con n = 30,000 debería producir un pequeño valor p, por lo que p = 0.032 sugiere un tamaño de efecto microscópico en el que en mi humilde opinión no estaría particularmente dispuesto a confiar.
ameba
Usted declara "El poder es la oportunidad de rechazar correctamente una hipótesis nula falsa", lo cual es correcto. y continúas "... así que tuviste una pequeña oportunidad pero pudiste hacerlo de todos modos" y para este último tengo dudas porque falta la parte "hipótesis falsa nula". El poder es la probabilidad de rechazar cuando es falso y la segunda parte de su declaración solo se relaciona con el rechazo de . H0H0H0
2

Depende de cómo se realizó el análisis de potencia. En términos generales, existe una relación entre cuatro variables (alfa, potencia, el tamaño del efecto y ) de modo que si estipula cualquiera de las tres, puede resolver la cuarta. N

Por lo general, cuando las personas realizan un análisis de potencia después de analizar sus datos, realizan un análisis de potencia post-hoc (de ahí el nombre), lo que significa que conectan su valor para alfa, su tamaño de efecto observado y su , para resolver la potencia. . Ciertamente, no tiene que hacerlo de esa manera (podría hacerlo de antemano con un tamaño de efecto teóricamente sugerido y el que sabe estará disponible para usted), pero si lo hace, los resultados se perderán en gran medida. Específicamente, si su resultado fue significativo, la potencia será , y si su resultado no fue significativo, la potencia será . NN>50%<50%

Eso no parece ser exactamente lo que encontraste. Una posibilidad es que exista una discrepancia sutil entre los métodos utilizados en su prueba y los del análisis de potencia. Esto se sugiere por el hecho de que su valor observado es cercano a y su potencia calculada es cercana al , a pesar de que están en diferentes lados de la línea. Otra posibilidad es que haya usado un tamaño de efecto ligeramente diferente al que encontró. p.0550%

Entonces, "¿[debería] molestarte [que] el poder es pequeño?" Si y no. Si hicieras un análisis de poder post-hoc tradicional (inválido), necesariamente obtendrías valores como ese: el ejercicio fue completamente poco informativo. Por otro lado, si tomamos en serio el análisis de potencia, un efecto significativo con una configuración de baja potencia básicamente significa que su efecto observado debe ser sesgado para que sea más grande de lo que realmente es, por lo que debe confiar menos en los resultados.

gung - Restablece a Monica
fuente
¡Buena publicación! En caso de que no lo sepas. Hay una publicación de seguimiento de una de sus respuestas anteriores aquí stats.stackexchange.com/questions/309745/…
Un poco demasiado curioso
-1

Denote el valor de su prueba (como una variable aleatoria) y arregle algunos . Llame a un resultado de prueba significativo o positivo cuando . Tenemos . Además, dejemos que sea ​​tal que . Entonces es el poder de la prueba.ppαpαP(pα|H0)αβP(p>α|H1)β1β

Tratando y como eventos (complementarios), el teorema de Bayes da: Esto muestra que las cuotas posteriores para son una versión escalada de las cuotas anteriores, con la fortaleza de la escala a favor de aumenta con . Esto significa que aprendemos más de una prueba positiva cuando es grande.H0H1

P(H1|pα)P(H0|pα)=P(pα|H1)P(pα|H0)P(H1)P(H0)1βαP(H1)P(H0)
H1H11β1β

Para más ilustración, mire los intervalos de confianza (IC). Se puede argumentar que un tamaño de muestra más grande hará que el IC sea más estrecho y, por lo tanto, si la prueba fue significativa para una muestra más pequeña, también será significativa para la muestra más grande. Sin embargo, también la ubicación del IC puede cambiar cuando incluimos más datos en nuestra muestra, lo que puede hacer que el resultado no sea significativo. También es concebible que la muestra más grande tenga un error estándar mucho mayor y, por lo tanto, el IC se ampliará de hecho. Se podría decir que un tamaño de muestra más grande les da a los hechos más oportunidades para probarse a sí mismos.

Ha habido una discusión interesante últimamente sobre la interpretación de p-valores, ver, por ejemplo:

[1] Colquhoun, "Una investigación de la tasa de descubrimiento falso y la mala interpretación de los valores p", Royal Society Open Science, 2014

[2] Colquhoun, "La reproducibilidad de la investigación y la mala interpretación de los valores P", 2017, http://www.biorxiv.org/content/early/2017/08/07/144337

[3] "¿Qué diría Cohen? Un comentario sobre p<.005", https://replicationindex.wordpress.com/2017/08/02/what-would-cohen-say-a-comment-on-p-005/

Con respecto a su resultado particular, no estoy calificado para juzgarlo. Usando solo tup-valor y la clasificación de [2], se encuentra entre "evidencia débil: vale la pena mirar de nuevo" y "evidencia moderada para un efecto real".

Lasse Kliemann
fuente