Informar grados de libertad para la prueba t de Welch

La prueba t de Welch para variaciones desiguales (también conocida como Welch – Satterthwaite o Welch-Aspin) generalmente tiene grados de libertad no enteros . ¿Cómo deben citarse estos grados de libertad al informar los resultados de la prueba?

"Es convencional redondear al número entero más cercano antes de consultar tablas t estándar" de acuerdo con varias fuentes *, lo que tiene sentido ya que esta dirección de redondeo es conservadora. ** Algunos programas estadísticos más antiguos también harían esto (por ejemplo, Graphpad Prism antes de la versión 6 ) y algunas calculadoras en línea todavía lo hacen. Si se hubiera utilizado este procedimiento, sería apropiado informar los grados de libertad redondeados . (¡Aunque usar un software mejor podría ser aún más apropiado!)

Pero la gran mayoría de los paquetes modernos hacen uso de la parte fraccionaria, por lo que en este caso parece que la parte fraccionaria debería citarse. No puedo ver que sea apropiado citar más de dos decimales, ya que una milésima de grado de libertad solo tendría un impacto insignificante en el valor p .

Al mirar alrededor de Google Scholar, puedo ver documentos que citan el df como un número entero, con un decimal o con dos decimales. ¿Hay alguna guía sobre cuánta precisión usar? Además, si el software utiliza la parte fraccionaria completo, si el citado df ser redondeado hacia abajo al número deseado de figuras (por ejemplo, $7.5845... \rightarrow 7.5$ a 1 DD o $\rightarrow 7$ como un número entero) como sea apropiado con el cálculo conservador , o como me parece más sensato, redondeado convencionalmente ( al más cercano ) de modo que $7.5845... \rightarrow 7.6$ a 1 dp u $\rightarrow 8$ al entero más cercano.

Editar: además de conocer la forma más teóricamente sólida de informar df no entero, también sería bueno saber qué hacen las personas en la práctica . Presumiblemente, las revistas y las guías de estilo tienen sus propios requisitos. Me gustaría saber qué guías de estilo influyentes como la APA requieren. Por lo que puedo discernir (su manual no está disponible gratuitamente en línea), la APA tiene una preferencia general de que casi todo debería aparecer con dos decimales, excepto los valores p (que pueden ser dos o tres dp) y porcentajes (redondeados al porcentaje más cercano) - que cubre pendientes de regresión, estadísticas t , estadísticas F , $\chi^2$ estadísticas, etc. Esto es bastante ilógico, teniendo en cuenta que el segundo lugar decimal ocupa una cifra significativa muy diferente, y sugiere una precisión bastante diferente, en 2.47 que en 982.47, pero podría explicar el número de Welch df con dos lugares decimales que vi en mi muestra no científica .

$*$ ej. Ruxton, GD La prueba t de varianza desigual es una alternativa subutilizada a la prueba t de Student y la prueba U de Mann – Whitney , Ecología conductual (julio / agosto 2006) 17 (4): 688-690 doi: 10.1093 / beheco / ark016

$**$ Aunque la aproximación de Welch-Satterthwaite en sí misma puede o no ser conservadora, y en un caso en el que no lo es, redondear los grados de libertad no es garantía de una compensación general.

t-test degrees-of-freedom reporting Lepisma
fuente

No he estudiado la práctica real, razón por la cual esto es un comentario y no una respuesta, pero esperaría que se basara en un juicio relacionado con el informe de cifras significativas. Para df relativamente alto, a menudo un cambio en el primer lugar decimal no cambiaría el valor p en absoluto (al nivel de precisión informado), por lo que redondear a un entero está bien. Para valores muy bajos de df

y extremos de

, la derivada

ν

$\nu$

t

$t$

puede exceder

, lo que sugiere en tales casos que

debería informarse a una cifra menos significativa que lapropia

| \frac{\partial}{\partial ν} F_{ν} (t) |

$|\frac{\partial}{\partial\nu}F_\nu(t)|$

0.01

$0.01$

ν

$\nu$

p

$p$

whuber

@whuber Esa es una observación útil, particularmente cuando se toma junto con la respuesta de Glen_b. ¿Qué tan bajo es "muy bajo" para

? (¡Mi sospecha de la muestra de documentos que encontré es que mucha "práctica real" puede no ser lo mismo que "buena práctica"! Sospecho que el seguimiento robótico de las pautas tiene tanto efecto como el juicio, por lo que sería interesante para saber cuáles son las pautas comunes de informes).

ν

$\nu$

Silverfish

Respuestas:

No he estudiado la práctica real, por lo que esta respuesta no puede abordar ese aspecto de la pregunta. Como principio general, esperaría que el tratamiento de dígitos significativos al informar los grados de libertad (df) se base en el juicio relacionado con cifras significativas.

El principio es ser consistente : use la precisión en una cantidad que sea apropiada para la precisión usada en otra que esté relacionada con ella. Específicamente, cuando se informan los valores e cuando se da al múltiplo más cercano de un valor pequeño (como $x$ $y=f(x)$ $x$ $h$ para seis lugares después del punto decimal), la precisión relativa en $h=\frac{1}{2}\times 10^{-6}$ mediada por la función es $y$ $f$

sup_{- h \leq k \leq h} | f (x + k) - f (x) | \approx h | \frac{d}{d x} f (x) | .

$\sup_{-h \le k \le h} |f(x+k) - f(x)| \approx h | \frac{d}{dx} f(x) |.$

La aproximación se aplica cuando es continuamente diferenciable en el intervalo $f$ . $[x-h, x+h]$

En la presente solicitud, es el valor , $y$ $p$ es el grado de libertad , y $x$ $\nu$

y = f (x) = f (ν) = F_{ν} (t)

$y = f(x) = f(\nu) = F_\nu(t)$

donde es la estadística Welch-Satterthwaite y es el CDF de la distribución Student con grados de libertad. $t$ $F_\nu$ $t$ $\nu$

Para relativamente alta df , a menudo un cambio en la primera posición decimal no cambiaría el valor de p en absoluto (al nivel de precisión reportado), de modo de redondeo a un entero está muy bien ( , pero $\nu$ $h=1/2$ es muy pequeño). Para valores muy bajos de df y extremos del estadístico, la magnitud de la derivada $h|\frac{d}{dx}f(x)|$ $t$ puede exceder, sugiriendo en tales casos quedebe reportarse a solo un decimal menos quemismo. $|\frac{\partial}{\partial\nu}F_\nu(t)|$ $0.01$ $\nu$ $p$

Compruébelo usted mismo con este diagrama de contorno etiquetado de la magnitud de la derivada para el df más bajo (razonable) y rangos de eso sería de interés (porque pueden conducir a valores p bajos). $|t|$

Figura

Las etiquetas muestran el logaritmo en base 10 de la derivada. Por lo tanto, en puntos entre y en esta parcela, cambiando el df reportado en la lugar después del punto decimal es probable que cambie El informaron p-valor sólo en la y más tarde lugares. Por ejemplo, suponga que está redondeando el valor p a (seis lugares decimales). Considere las estadísticas y . Estos se encuentran cerca del $-k$ $-(k+1)$ $j^\text{th}$ $(j+k)^\text{th}$ $10^{-6}$ $\nu=2.5$ $t=8$ $-3$ Contorno de registro. Por lo tanto, debe informarse a decimales. $\nu$ $6+(-3)=3$

Las áreas celestes, para los más grandes , son las que preocupan, porque muestran dónde pequeños cambios en tienen los mayores efectos sobre el valor p. $k$ $\nu$

Compare esto con la situación de mayor df (de muestran a ): $4$ $30$

Figura 2

La influencia de en la precisión de $\nu$ $p$ disminuye rápidamente a medida que aumenta . $\nu$

whuber
fuente

Esta fue una contribución muy útil para establecer por qué principios se deben redondear los grados de libertad (¡+50!); Espero que un respondedor posterior pueda llenar los vacíos sobre la práctica real.

Silverfish

Es convencional redondear al entero más cercano antes de consultar tablas t estándar

La razón por la que fue una convención es porque las tablas no tienen df no enteros. No hay razón para hacerlo de otra manera.

lo cual tiene sentido ya que este ajuste es conservador.

Bueno, la estadística en realidad no tiene una distribución t, porque el denominador al cuadrado en realidad no tiene una distribución de chi-cuadrado a escala. Es una aproximación que puede o no ser conservadora en algún caso en particular: redondear df hacia abajo puede no ser seguro para ser conservador cuando consideramos la distribución exacta de la estadística en un caso en particular.

(¿por interpolación o realmente crujiendo los números para la distribución t con ese df?)

Los valores p de las distribuciones t (aplicando el cdf a un estadístico t) se pueden calcular mediante una variedad de aproximaciones bastante precisas, por lo que se calculan efectivamente en lugar de interpolarse.

No puedo ver que sea apropiado citar más de dos decimales

Estoy de acuerdo.

¿Hay alguna guía sobre cuánta precisión usar?

Una posibilidad podría ser investigar qué tan precisa es la aproximación de Welch-Satterthwaite para el valor p en esa región general de relaciones de varianza y no citar una precisión sustancialmente mayor de la que sugeriría que estaba en el df (teniendo en cuenta que el df en el chi-cuadrado en el cuadrado del denominador solo está dando una aproximación a algo que no es chi-cuadrado de todos modos).

Glen_b -Reinstate a Monica
fuente

Debería haber aclarado re "redondear hacia abajo es conservador". La aproximación de Welch-Satterthwaite en sí misma puede o no ser conservadora. Pero el proceso de redondeo seguramente lo es: si la aproximación no fue conservadora para empezar, es al menos menos mala después de redondear. Por el contrario, redondear hacia arriba (por ejemplo, "7.5845 rondas más cercanas a 8") definitivamente no es un ajuste conservador. Podría encontrar una mejor manera de expresar esto, ¡pero espero que mi punto sea claro!

Silverfish

"Una posibilidad podría ser investigar qué tan precisa es la aproximación de Welch-Satterthwaite para el valor p en esa región general de relaciones de varianza". Esto es muy sensible y parece ser el enfoque basado en principios. ¿Es esto algo que se hace comúnmente? Algunos consejos para la implementación serían buenos. ¡En la práctica, sospecho que las pautas de estilo de revista a menudo tienen la última palabra al respecto! Pero no sé lo que dicen: definitivamente hubo una variedad de práctica en los documentos que apareció en mi búsqueda.

Silverfish

Para tratar de evitar confusiones a futuros lectores, he intentado aclarar el redondeo conservador en el cuerpo de la pregunta. Gracias por recoger eso.

Silverfish

No creo que se haga algo así, pero no creo que eso signifique que no debería ser así. La cantidad de explicaciones de por qué uno se redondea / trunca hasta cierto punto en el documento dependería claramente de la revista / editor / árbitros.

Glen_b -Reinstale a Monica el