¿Cuánto más pequeños pueden ser los valores

13

Introducción: Habiendo notado la atención recibida hoy por esta pregunta, " ¿Puede ANOVA ser significativo cuando ninguna de las pruebas t por pares lo es? ", Pensé que podría volver a enmarcarlo de una manera interesante que mereciera su propio conjunto de respuestas. .

Una variedad de resultados incongruentes (al pie de la letra) puede ocurrir cuando la significación estadística se entiende como una simple dicotomía y se juzga sobre la base de que es mayor, p o α . La respuesta de @ Glen_b a la pregunta anterior presenta un ejemplo útil de un caso en el que:

  • Una prueba ANOVA F produce una pF<.05 para una variable independiente (IV) con cuatro niveles, pero
  • pt>.08 para todas laspruebas dos muestrastque comparan las diferencias en la misma variable dependiente (DV) entre las observaciones correspondientes a cada par de los cuatro niveles del IV.

Un caso similar surgió a pesar de las correcciones de Bonferroni para las comparaciones por pares post-hoc a través de esta pregunta: las medidas repetidas de Anova son significativas, pero todas las comparaciones múltiples con la corrección de Bonferroni no lo son. También existen casos mencionados anteriormente con una prueba ligeramente diferente en regresión múltiple:

Apuesto a que en casos como estos, algunas (pero no todas) las comparaciones por pares (o los coeficientes de regresión 'pruebas de significación') valores deben estar bastante cerca de α si una prueba ómnibus correspondiente puede lograr una p < αpαp<α . Veo que este es el caso en el primer ejemplo de @ Glen_b, donde , p F = .046 , y la mayor diferencia por pares da la menor p t = .054 . ¿Debe ser este el caso en general? Más específicamente :F(3,20)=3.19pF=.046pt=.054


Pregunta: Si una prueba ANOVA produce una p F = .05 para el efecto de un IV politomatoso en un DV continuo, ¿qué tan alto podría ser el valor p más bajo entre todas las pruebas t de dos muestras que comparan cada par de niveles de IV? ¿Podría la significancia mínima en pares ser tan alta como p t = .50 ?FpF=.05ptpt=.50


Agradezco las respuestas que aborden solo esta pregunta específica . Sin embargo, para motivar aún más esta pregunta, elaboraré y agregaré algunas preguntas potencialmente retóricas. Siéntase bienvenido a abordar estas inquietudes e incluso a ignorar la pregunta específica si lo desea, especialmente si la pregunta específica obtiene una respuesta definitiva.

Importancia: considere cuánto menos importante sería la diferencia entre una y una p t = .06 si la significación estadística se juzgara en términos continuos de la fuerza de la evidencia contra la hipótesis nula (¿creo que el enfoque de Ron Fisher? ), en lugar de en términos dicotómicos como arriba o abajo de un umbral de α = .05 para una probabilidad aceptable de error al elegir si se rechaza la venta al por mayor nula. " p- hacking " es un problema conocido que en parte debe su notoriedad a una vulnerabilidad innecesaria introducida por la interpretación de ppF=.04pt=.06α=.05ppvalores de acuerdo con la práctica común de dicotomizar la significación en los equivalentes de "suficientemente bueno" y "no suficientemente bueno". Si uno dispusiera de esta práctica y se enfocara en interpretar los valores de como la fuerza de la evidencia contra el nulo en un intervalo continuo, ¿podrían las pruebas omnibus ser algo menos importantes cuando uno realmente se preocupa por las comparaciones múltiples por pares? No es necesariamente inútil, ya que cualquier mejora razonablemente eficiente en la precisión estadística es, por supuesto, deseable, pero ... si, por ejemplo, el valor p de la comparación por pares más baja está necesariamente dentro de .10 del ANOVA (u otra prueba omnibus) ppp.10pvalor, no hace esta marca ensayo ómnibus algo más trivial, menos obligatoria, y aún más engañosa (en conjunción con malentendidos preexistente), especialmente si uno no particularmente quieren controlar a través de múltiples pruebas?α

Por el contrario, si los datos pueden existir de manera tal que un ómnibus , pero todos por pares p > .50 , ¿no debería esto motivar aún más el ómnibus y las pruebas de contraste a lo largo de la práctica y la pedagogía? Me parece que este tema también debería informar los méritos relativos de juzgar la significación estadística de acuerdo con una dicotomía frente a un continuo, en el sentido de que el sistema interpretativo dicotómico debería ser más sensible a pequeños ajustes cuando las diferencias son "marginalmente significativas", mientras que ninguno de los sistemas está a salvo de una falla en la realización de una prueba ómnibus o ajuste para comparaciones múltiples si esta diferencia / ajuste puede ser muy grande (p. ej., p t - p F >p=.05p>.50 en teoría.ptpF>.40)

Otras complejidades opcionales para tener en cuenta o ignorar, lo que hace que responder sea más fácil y valga la pena :

  • Qué tan alto s para t s podría ser si, para F , p < .05 en su lugar (p. Ej., P = .01 , .001 , ... )ptFp<.05p=.01,.001,
  • Sensibilidad al número de niveles en un IV politomatoso
  • Sensibilidad a la desigualdad en la importancia de las diferencias entre pares (mientras que todos los )pt>pF
  • Diferencias entre varias correcciones de pruebas ómnibus para comparaciones múltiples
  • Casos restringidos donde los datos cumplen todos los supuestos de las pruebas paramétricas clásicas de manera óptima
    • Esta restricción puede ser importante para evitar que esta pregunta sea algo discutible.
Nick Stauner
fuente
1
Es posible que desee aclarar si las pruebas t por pares deben usar la misma estimación de varianza de error que la prueba F omnibus (en el ejemplo de Glen no lo hacen).
Scortchi - Restablece a Monica
1
Quería decir un t-test ordinaria para la diferencia en las medias utilizando , pero conσcalculado como la raíz cuadrada del error cuadrático medio ANOVAR. Es la prueba t por pares post-hoc habitual yno seajusta para comparaciones múltiples, a diferencia del HSD de Tukey. Incorpora información de todos los grupos, pero es independiente de las diferencias en los medios grupales. t=(y¯1y¯2)/(σ^1n1+1n2)σ^
Scortchi - Restablece a Monica
1
Ya veo (más o menos)! Me interesaría principalmente seguir el ejemplo de @ Glen_b y no usar , pero usando la primera fórmula que mencionaste para evitar incorporar información de todos los grupos. Eso no quiere decir que tenga una fuerte preferencia aquí ... pero parte de mi intención original era presentar una variante del tema común en estas preguntas: "¿Cuál es el daño real al ignorar la información más allá de los dos grupos particulares en cuestión para cualquier prueba de dos muestras entre muchas? Supongo que vale la pena llevar a cabo ese tema también en esta decisión. MSE
Nick Stauner el
1
@Scortchi He incluido un ejemplo en la otra pregunta que cubre su primer comentario (es decir, dónde se realizan las pruebas utilizando la varianza de error común y df), aunque todas las pruebas (F y comparaciones múltiples) se realizan a un nivel de significancia bastante bajo (0.0025, no 0.05). Cuando se compara con las pruebas t de dos muestras ordinarias individuales como lo solicita Nick S. aquí, muestra que es posible una diferencia bastante significativa en la significación (en este caso, para todas las pruebas t ordinarias , sin embargo, p F < 0.002 ). Creo que con muchos grupos, es posible ir mucho más lejos. pt>.05pF<0.002
Glen_b -Reinstalar Monica
1
Esbocé una respuesta a la primera parte de esta pregunta hace unos minutos en un comentario en stats.stackexchange.com/questions/83030/… .
whuber

Respuestas:

8

Asumiendo igual n s es [pero vea la nota 2 a continuación] para cada tratamiento en un diseño unidireccional, y que la SD agrupada de todos los grupos se usa en las pruebas (como se hace en las comparaciones post hoc habituales), el máximo posible El valor p para una prueba t es 2 Φ ( - tpt(aquí,Φdenota elN(0,1)cdf). Por lo tanto, nopt2Φ(2).1573ΦN(0,1)pt puede ser tan alto como . Curiosamente (y bastante extraño), el 0,1573 obligado no sólo tiene capacidad para p F = 0,05 , pero para cualquier nivel de significación que se requieren para F .0.5.1573pF=.05F

La justificación es la siguiente: para un rango dado de medias muestrales, , el mayor estadístico F posible se logra cuando la mitad de ˉ y i está en un extremo y la otra mitad está en el otro. Esto representa el caso donde F parece el más significativo dado que dos medias difieren en a lo sumo 2 a .maxi,j|y¯iy¯j|=2aFy¯iF2a

Entonces, sin pérdida de generalidad, suponga que para que ˉ y i = ± a en este caso límite. Y de nuevo, sin pérdida de generalidad, supongamos que M S E = 1 , ya que siempre podemos reescalar los datos a este valor. Ahora considere k significa (donde k es incluso por simplicidad [pero vea la nota 1 a continuación]), tenemos F = y¯.=0y¯i=±aMSE=1kk . EstablecerpF=αpara queF=Fα=Fα,kF=ny¯2/(k1)MSE=kna2k1pF=α , obtenemosa=F=Fα=Fα,k1,k(n1) . Cuando todos losˉyison±a(y aúnMSE=1), cadaestadísticatdistinta de ceroest=2aa=(k1)Fαkny¯i±aMSE=1t . Este es elvalortmáximo más pequeñoposible cuandoF=Fα.t=2a12/n=2(k1)FαktF=Fα

Por lo tanto, puede probar diferentes casos de y n , calcular t y su p t asociada . Pero observe que para k dado , F α está disminuyendo en n [pero vea la nota 3 a continuación]; además, como n , ( k - 1 ) F α , k - 1 , k ( n - 1 )χ 2 α , k - 1 ; entonces t kntptkFαnn(k1)Fα,k1,k(n1)χα,k12 . Tenga en cuenta queχ2/k= k - 1ttmin=2χα,k12/ktiene una media dek-1χ2/k=k1kχ2/(k1) y SDk-1k1k . Entonceslimktmin=k1k2k1 , independientemente deα, y el resultado que indiqué en el primer párrafo anterior se obtiene de la normalidad asintótica.limktmin=2α

Sin embargo, lleva mucho tiempo alcanzar ese límite. Aquí están los resultados (calculados usando R) para varios valores de , usando α = .05 :kα=.05

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

Unos cabos sueltos ...

  1. Cuando k es impar: el estadístico máximo todavía ocurre cuando ˉ y i son todos ± a ; sin embargo, tendremos uno más en un extremo del rango que el otro, haciendo la media ± a / k , y puede demostrar que el factor k en elFy¯i±a±a/kkestadístico F se reemplaza por k - 1F . Esto también reemplaza el denominador dek1k , haciéndolo un poco más grande y, por lo tanto, disminuyendo p t .tpt
  2. Desigual s:n El máximo todavía se logra con ˉ y i = ± a , con los signos dispuestos para equilibrar los tamaños de muestra de la manera más equitativa posible. Entonces, la estadística F para el mismo tamaño de muestra total N = n i será igual o menor que para los datos balanceados. Además, el estadístico t máximo será mayor porque será el que tenga el mayor n i . Por lo tanto, no podemos obtener valores de p t más grandes al observar casos desequilibrados.Fy¯i=±aFN=nitnipt
  3. Una ligera corrección: estaba tan concentrado en tratar de encontrar el mínimo que pasé por alto el hecho de que estamos tratando de maximizar p t , y es menos obvio que una t más grande con menos df no será menos significativa que una más pequeña uno con más df. Sin embargo, verifiqué que este es el caso calculando los valores para n = 2 , 3 , 4 , ... hasta que el df sea lo suficientemente alto como para hacer poca diferencia. Para el caso α = .05 , k 3 No vi ningún caso en el que los valores de p t no aumentaran contpttn=2,3,4,α=.05,k3pt . Tenga en cuenta que d f = k ( n - 1 ), por lo que los posibles df son k , 2 k , 3 k , ... que se hacen grandes rápidamente cuando k es grande. Así que todavía estoy en terreno seguro con el reclamo anterior. También probé α = .25 , y el único caso que observé dondese superó el umbral de .1573 fue k = 3 , n = 2 .ndf=k(n1)k,2k,3k,kα=.25.1573k=3,n=2
Russ Lenth
fuente