La prueba t de Welch da un valor p peor para una diferencia más extrema

8

Aquí hay cuatro conjuntos diferentes de números:

A = {95.47, 87.90, 99.00}
B = {79.2, 75.3, 66.3}
C = {38.4, 40.4, 32.8}
D = {1.8, 1.2, 1.1}

Utilizando una prueba t de dos muestras sin suponer variaciones iguales, comparo B, C y D con A y obtengo los siguientes valores p:

0.015827 (A vs B)
0.000283 (A vs C)
0.001190 (A vs D)

Me resulta extraño que el valor p de la prueba AD sea peor que la prueba AC: la diferencia entre las medias es claramente mucho mayor Y la varianza de D es mucho menor que la varianza de C. Intuitivamente (al menos para mi intuición ), ambos hechos deberían reducir el valor p.

¿Podría alguien explicarme si este es un comportamiento deseado o esperado de la prueba t o si tiene que ver más con mi conjunto de datos en particular (tal vez un tamaño de muestra extremadamente bajo)? ¿La prueba t es inapropiada para este conjunto particular de datos?

Desde un punto de vista puramente computacional, la razón de un peor valor p parece ser los grados de libertad, que en la comparación AD es 2.018 mientras que es 3.566 en la comparación AC. Pero seguramente, si acaba de ver esos números, ¿no pensaría que hay evidencia más sólida para rechazar la hipótesis nula en el caso de AD en comparación con AC?

Algunos podrían sugerir que esto no es un problema aquí ya que todos los valores p son bastante bajos de todos modos. Mi problema es que estas 3 pruebas son parte de un conjunto de pruebas que estoy realizando. Después de corregir las pruebas múltiples, la comparación AD no hace el corte, mientras que la comparación AC sí. Imagine trazar esos números (digamos gráficos de barras con barras de error como suelen hacer los biólogos) y tratar de justificar por qué C es significativamente diferente de A pero D no es ... bueno, no puedo.

Actualización: por qué esto es realmente importante

Permítanme aclarar por qué esta observación podría tener un gran impacto en la interpretación de estudios anteriores. En bioinfomática, he visto que la prueba t se aplica a tamaños de muestra pequeños a gran escala (piense en la expresión diferencial de genes de cientos o miles de genes, o el efecto de muchos medicamentos diferentes en una línea celular, usando solo 3-5 repeticiones ) El procedimiento habitual es hacer muchas pruebas t (una para cada gen o medicamento) seguido de una corrección de pruebas múltiples, generalmente FDR. Dada la observación anterior del comportamiento de la prueba t de Welch, esto significa que algunos de los mejores casos se están filtrando sistemáticamente. Aunque la mayoría de las personas mirarán los datos reales para las comparaciones en la parte superior de su lista (las que tienen los mejores valores p), no conozco a nadie que revise la lista de todas las comparaciones donde la hipótesis nula no era t rechazado.

t-test ALiX
fuente

1

Recuerde, la fórmula de Welch es una aproximación. Los estudios de simulación indican que "la corrección de Welch se vuelve demasiado conservadora cuando los tamaños de muestra son muy desiguales", que es el caso con la comparación AD.

Whuber

1

Los tamaños de muestra son iguales en este caso @whuber. ¿Quiso decir varianzas de muestra?

ALiX

1

Gracias, ALiX, tienes razón. Para el caso de variaciones muy desiguales y tamaños de muestra iguales, debería haber citado una conclusión diferente (¡lo que es aún peor!): "... error tipo I ... se infla en varios grados, por lo que las pruebas no son válidas y No debería ser usado."

whuber

Me pregunto si sus datos son recuentos leídos de rna-seq? Si es así, ¿puedo sugerirle que busque en DESeq (paquete R / Bioconductor)? genomebiology.com/2010/11/10/R106

bdemarest

3

Sí, son los grados de libertad. Las estadísticas t aumentan a medida que comparamos los grupos B, C, D con A; los numeradores se hacen más grandes y los denominadores se hacen más pequeños.

¿Por qué su enfoque no "funciona"? Bueno, la aproximación Satterthwaite para los grados de libertad, y la distribución de referencia es (como su nombre lo indica), solo una aproximación. Funcionaría bien si tuviera más muestras en cada grupo, y no datos de cola muy grande; 3 observaciones por grupo es realmente muy pequeño para la mayoría de los propósitos. (Además, aunque los valores p son útiles para hacer pruebas, no miden evidencia y no estiman parámetros con interpretaciones directas en términos de datos).

Si realmente desea calcular la distribución exacta del estadístico de prueba, y un valor p mejor calibrado, hay métodos citados aquí que podrían usarse. Sin embargo, confían en asumir Normalidad, una suposición que no tiene una capacidad apreciable para verificar, aquí.

invitado
fuente

Más muestras por sí solas no ayudarían: obtendría valores p más bajos, pero el orden de los valores p sería el mismo. Vea mi actualización por qué esto podría ser importante en algunas aplicaciones.

ALiX

Estoy de acuerdo en que este fenómeno podría ser importante, pero ayudarían más muestras por grupo; asintóticamente, la prueba proporciona valores p precisos. Sin embargo, con grupos pequeños existen métodos exactos (por ejemplo, SAM, por Tibshirani) que obtienen su validez estadística del análisis basado en permutación.

invitado

Si hay una gran diferencia entre las variaciones de los dos grupos, el aumento del tamaño de la muestra no ayudará en el sentido de que el orden de los valores p será incorrecto (es decir, AC todavía tendrá un valor p menor que AD). SAM no se puede usar si está probando el efecto de muchos compuestos a diferentes concentraciones (esta debería ser una aplicación ideal de la prueba t). La prueba t de Welch me parece fundamentalmente defectuosa : su propósito es manejar variaciones desiguales, pero cuanto más desiguales son, peor se desempeña (el grado de aproximación de libertad se rompe).

ALiX

1

Si desea realizar comparaciones por pares de los diferentes niveles de concentración y está probando los niveles de expresión génica en muchos genes, se puede utilizar SAM para cada comparación por pares y le dará declaraciones honestas de significación estadística para cada comparación. Entonces, si lo desea, puede usarlos para clasificar las comparaciones. Además, la prueba de Welch no es fundamentalmente defectuosa. Claro, simplemente no funciona bien con n = 3, pero esto no es lo que dice hacer. Una bomba de bicicleta es inútil para pelar papas, pero esto no significa que pueda concluir que es "fundamentalmente defectuosa".

invitado

1

El orden es potencialmente incorrecto sin importar lo que hagas, por lo que eso no ayuda. Si desea ordenar por significancia estadística de la diferencia de medias entre grupos en sus datos reales, y tiene muestras de tamaño moderado, el valor p de la prueba de Welch funcionará bien. Con tamaños de muestra pequeños, no, no funcionará bien, pero dado que se desarrolló como una aproximación y que funciona mejor que muchos competidores, esto no es motivo de crítica.

invitado

1

Hay bastante en esta pregunta, y estoy bastante seguro de que parte de ella está más allá de mi comprensión. Por lo tanto, si bien tengo una solución probable al 'problema' y algunas especulaciones, es posible que deba verificar mi 'funcionamiento'.

Estás interesado en la evidencia. Fisher propuso el uso de valores de p como evidencia, pero la evidencia dentro de un conjunto de datos contra la hipótesis nula se muestra más fácilmente (¿sensiblemente?) Con una función de probabilidad que el valor de p. Sin embargo, un valor p más extremo es una evidencia más fuerte.

Esta es mi solución: no use la prueba t de Welch, sino que transforme los datos con una transformación de raíz cuadrada para igualar las variaciones y luego use una prueba t de Student estándar. Esa transformación funciona bien en sus datos y es uno de los enfoques estándar para los datos que son heterocedásticos. El orden de los valores p ahora coincide con su intuición y servirá como evidencia.

Si está utilizando los valores de p como evidencia en lugar de intentar protegerse contra los errores falsos positivos a largo plazo, los argumentos para ajustar los valores de p para comparaciones múltiples se vuelven bastante débiles, en mi opinión.

Ahora, la parte especulativa. Según tengo entendido, la prueba t de Welch es una solución al problema de Fisher-Behrens (la prueba significa que los datos tienen variaciones desiguales), pero es una solución con la que Fisher no estaba contento. Quizás es un Neyman-Pearsonian en su filosofía subyacente. De todos modos, la cantidad de evidencia en el valor p de una prueba t depende del valor p Y del tamaño de la muestra. (Eso no es ampliamente reconocido, tal vez porque la evidencia en el valor p de una prueba z es independiente del tamaño de la muestra). Sospecho que la prueba de Welch arruina la naturaleza probatoria del valor p mediante su ajuste de los grados de libertad.

Michael Lew
fuente

Gracias por señalar la transformación de raíz cuadrada como una solución. Lo miraré.

ALiX

(continúa) Realmente no entiendo tu comentario sobre los valores p y las pruebas múltiples. ¿Existe una contradicción entre el uso de valores p como evidencia y el ajuste para múltiples pruebas? Y su comentario final sobre la evidencia en un valor p de una prueba t según el tamaño de la muestra: ¿no se ajustan los grados de libertad para los tamaños de muestra? Y además, ¿cómo podría afectar esto a este conjunto de datos en particular cuando los tamaños de muestra son los mismos para todas las comparaciones?

ALiX

@AliX La evidencia contra la hipótesis nula se cuantifica mejor por la función de probabilidad. Para una prueba t, la altura de la función de probabilidad que corresponde a un valor p particular depende del tamaño de la muestra. En contraste, con una prueba z, la altura de la función de probabilidad no se ve afectada por el tamaño de la muestra. SI está interesado en la evidencia, le sugiero que mire Evidencia estadística: un paradigma de probabilidad por Richard Royall.

Michael Lew

1

Después de investigar, creo que mi veredicto final es algo como esto:

Para simplificar la discusión, consideremos solo el caso cuando los tamaños de muestra son iguales. En ese caso, la aproximación a los grados de libertad se puede escribir como

\frac{{(\frac{s_{1}^{2}}{norte} + \frac{s_{2}^{2}}{norte})}^{2}}{\frac{s_{1}^{4 4}}{{norte}^{2} (norte - 1)} + \frac{s_{2}^{4 4}}{{norte}^{2} (norte - 1)}} = . . . = (norte - 1) (1 + \frac{2 s_{1}^{2} s_{2}^{2}}{s_{1}^{4 4} + s_{2}^{4 4}}),

$\frac{\left(\frac{s_1^2}{n} + \frac{s_2^2}{n}\right)^2}{\frac{s_1^4}{n^2(n-1)} + \frac{s_2^4}{n^2(n-1)}} = ... = (n-1)\left(1 + \frac{2 s_1^2 s_2^2}{s_1^4 + s_2^4}\right),$

dónde $s_1^2$ y $s_2^2$ son las variaciones de muestra y $n$ es el tamaño de la muestra Por lo tanto, los grados de libertad son $(n-1)\cdot2$ cuando las varianzas muestrales son iguales y se acerca $(n-1)$ a medida que los tamaños de muestra se vuelven más desiguales. Esto significa que los grados de libertad diferirán en un factor de casi 2 basado solo en las variaciones de la muestra. Incluso para tamaños de muestra de tamaño razonable (digamos 10 o 20) la situación ilustrada en la publicación principal puede ocurrir fácilmente.

Cuando se realizan muchas pruebas t, la clasificación de las comparaciones por valor p podría resultar fácilmente en que las mejores comparaciones no lleguen a la parte superior de la lista o se excluyan después de ajustar para múltiples pruebas.

Mi opinión personal es que esta es una falla fundamental en la prueba t de Welch, ya que está diseñada para realizar comparaciones entre muestras con variaciones desiguales, pero cuanto más desiguales se vuelven las variaciones, más se pierde potencia (en el sentido de que el orden de su p -los valores estarán mal).

La única solución que se me ocurre es utilizar algunas pruebas basadas en permutación o transformar los datos para que las variaciones en sus pruebas no estén demasiado lejos entre sí.

ALiX
fuente

1

No creo que deba llamarse "defecto fundamental". Todo es relativo a algo. La prueba t de Welch salió en respuesta al error subestimado tipo I de la prueba t de la varianza en spool, por lo que es una forma mejorada de controlar el error tipo I "en comparación con la" prueba t de varianza en spool. Pero cuando se trata de MCP y valores p muy bajos, seguramente tiene problemas.

KH Kim

2

¿Cómo vas a organizar tus permutaciones? Si las muestras realmente provienen de poblaciones que difieren en la varianza, incluso bajo nulo, las etiquetas de grupo no son arbitrarias, al mismo nivel

n

$n$ , si un valor está cerca de la media, es mucho más probable que provenga del grupo con una varianza menor. Por lo tanto, parece que no puede argumentar que solo puede permutar las etiquetas debajo de nulo.

Glen_b -Reinstate Monica

0

Hasta donde sé, escuché la prueba t de Welch que usa la aproximación Satterthwaite

se verifica para la prueba de significancia 0.05.

Lo que significa que cuando P (combinación lineal de distribución chi-cuadrado> c) = 0.05,

podemos obtener aproximadamente c.

Entonces, creo que el valor p es bastante confiable alrededor de 0.05,

Y obviamente no es así cuando obtiene mucho menos de 0.05.

p1 = 0 p2 = 0 para (m en 1:50) {a <-c (-m + 95.47, -m + 87.90, -m + 99.00) c <-c (38.4, 40.4, 32.8) d <-c (1.8, 1.2, 1.1) p1 [m] = t.test (a, c, var.eqaul = F) $p.value p2[m]=t.test(a,d, var.eqaul=F)$ p.value} plot (1:50, p1, col = "black") puntos (1:50, p2, col = "red")

Puede ver que los valores p se vuelven más correctos a medida que se acerca a 0.05 ...

Por lo tanto, no debemos usar valores p que sean mucho menores que 0.05 cuando usamos la prueba t de Welch.

Si se usa, creo que deberíamos escribir un artículo al respecto.

De todos modos, actualmente estoy escribiendo sobre "Estadísticas" y este tema es intrigante.

Espero usar sus datos para escribir el libro con su permiso.

¿Me dejarías usar tus datos?

Y le agradecería si pudiera decir la fuente de datos y el contexto desde el cual

¡Ellos vinieron!

KH Kim
fuente

Investigué un poco sobre esto y descubrí que la aproximación es así. Desea conocer la distribución de a chi_1 ^ 2 (df1) + b chi_2 ^ 2 (df2) pero la distribución exacta es tan complicada que la aproximación entra en acción. Y deje que a chi_1 ^ 2 + b chi_2 ^ 2 = c chi_3 ^ 2 (df3), y establezca df3 de modo que los promedios y los segundos momentos de dos distribuciones sean iguales. entonces p = 0.5 es exacto, pero a medida que se aleja de él, la diferencia b2, la p exacta y la p aproximada se hace más grande. Recuerdo que cuando se realizó la t de Welch, R siempre imprimió "el valor p no es exacto", supongo

KH Kim

Solo estoy analizando los datos y, como tal, los datos en realidad no me pertenecen. Pero una vez que se publiquen los datos (debería ser pronto), debería poder usarlos como desee.

ALiX

La prueba t de Welch da un valor p peor para una diferencia más extrema

Respuestas: