Aquí hay cuatro conjuntos diferentes de números:
A = {95.47, 87.90, 99.00}
B = {79.2, 75.3, 66.3}
C = {38.4, 40.4, 32.8}
D = {1.8, 1.2, 1.1}
Utilizando una prueba t de dos muestras sin suponer variaciones iguales, comparo B, C y D con A y obtengo los siguientes valores p:
0.015827 (A vs B)
0.000283 (A vs C)
0.001190 (A vs D)
Me resulta extraño que el valor p de la prueba AD sea peor que la prueba AC: la diferencia entre las medias es claramente mucho mayor Y la varianza de D es mucho menor que la varianza de C. Intuitivamente (al menos para mi intuición ), ambos hechos deberían reducir el valor p.
¿Podría alguien explicarme si este es un comportamiento deseado o esperado de la prueba t o si tiene que ver más con mi conjunto de datos en particular (tal vez un tamaño de muestra extremadamente bajo)? ¿La prueba t es inapropiada para este conjunto particular de datos?
Desde un punto de vista puramente computacional, la razón de un peor valor p parece ser los grados de libertad, que en la comparación AD es 2.018 mientras que es 3.566 en la comparación AC. Pero seguramente, si acaba de ver esos números, ¿no pensaría que hay evidencia más sólida para rechazar la hipótesis nula en el caso de AD en comparación con AC?
Algunos podrían sugerir que esto no es un problema aquí ya que todos los valores p son bastante bajos de todos modos. Mi problema es que estas 3 pruebas son parte de un conjunto de pruebas que estoy realizando. Después de corregir las pruebas múltiples, la comparación AD no hace el corte, mientras que la comparación AC sí. Imagine trazar esos números (digamos gráficos de barras con barras de error como suelen hacer los biólogos) y tratar de justificar por qué C es significativamente diferente de A pero D no es ... bueno, no puedo.
Actualización: por qué esto es realmente importante
Permítanme aclarar por qué esta observación podría tener un gran impacto en la interpretación de estudios anteriores. En bioinfomática, he visto que la prueba t se aplica a tamaños de muestra pequeños a gran escala (piense en la expresión diferencial de genes de cientos o miles de genes, o el efecto de muchos medicamentos diferentes en una línea celular, usando solo 3-5 repeticiones ) El procedimiento habitual es hacer muchas pruebas t (una para cada gen o medicamento) seguido de una corrección de pruebas múltiples, generalmente FDR. Dada la observación anterior del comportamiento de la prueba t de Welch, esto significa que algunos de los mejores casos se están filtrando sistemáticamente. Aunque la mayoría de las personas mirarán los datos reales para las comparaciones en la parte superior de su lista (las que tienen los mejores valores p), no conozco a nadie que revise la lista de todas las comparaciones donde la hipótesis nula no era t rechazado.
Respuestas:
Sí, son los grados de libertad. Las estadísticas t aumentan a medida que comparamos los grupos B, C, D con A; los numeradores se hacen más grandes y los denominadores se hacen más pequeños.
¿Por qué su enfoque no "funciona"? Bueno, la aproximación Satterthwaite para los grados de libertad, y la distribución de referencia es (como su nombre lo indica), solo una aproximación. Funcionaría bien si tuviera más muestras en cada grupo, y no datos de cola muy grande; 3 observaciones por grupo es realmente muy pequeño para la mayoría de los propósitos. (Además, aunque los valores p son útiles para hacer pruebas, no miden evidencia y no estiman parámetros con interpretaciones directas en términos de datos).
Si realmente desea calcular la distribución exacta del estadístico de prueba, y un valor p mejor calibrado, hay métodos citados aquí que podrían usarse. Sin embargo, confían en asumir Normalidad, una suposición que no tiene una capacidad apreciable para verificar, aquí.
fuente
Hay bastante en esta pregunta, y estoy bastante seguro de que parte de ella está más allá de mi comprensión. Por lo tanto, si bien tengo una solución probable al 'problema' y algunas especulaciones, es posible que deba verificar mi 'funcionamiento'.
Estás interesado en la evidencia. Fisher propuso el uso de valores de p como evidencia, pero la evidencia dentro de un conjunto de datos contra la hipótesis nula se muestra más fácilmente (¿sensiblemente?) Con una función de probabilidad que el valor de p. Sin embargo, un valor p más extremo es una evidencia más fuerte.
Esta es mi solución: no use la prueba t de Welch, sino que transforme los datos con una transformación de raíz cuadrada para igualar las variaciones y luego use una prueba t de Student estándar. Esa transformación funciona bien en sus datos y es uno de los enfoques estándar para los datos que son heterocedásticos. El orden de los valores p ahora coincide con su intuición y servirá como evidencia.
Si está utilizando los valores de p como evidencia en lugar de intentar protegerse contra los errores falsos positivos a largo plazo, los argumentos para ajustar los valores de p para comparaciones múltiples se vuelven bastante débiles, en mi opinión.
Ahora, la parte especulativa. Según tengo entendido, la prueba t de Welch es una solución al problema de Fisher-Behrens (la prueba significa que los datos tienen variaciones desiguales), pero es una solución con la que Fisher no estaba contento. Quizás es un Neyman-Pearsonian en su filosofía subyacente. De todos modos, la cantidad de evidencia en el valor p de una prueba t depende del valor p Y del tamaño de la muestra. (Eso no es ampliamente reconocido, tal vez porque la evidencia en el valor p de una prueba z es independiente del tamaño de la muestra). Sospecho que la prueba de Welch arruina la naturaleza probatoria del valor p mediante su ajuste de los grados de libertad.
fuente
Después de investigar, creo que mi veredicto final es algo como esto:
Para simplificar la discusión, consideremos solo el caso cuando los tamaños de muestra son iguales. En ese caso, la aproximación a los grados de libertad se puede escribir como
dóndes21 y s22 son las variaciones de muestra y norte es el tamaño de la muestra Por lo tanto, los grados de libertad son( n - 1 ) ⋅ 2 cuando las varianzas muestrales son iguales y se acerca ( n - 1 ) a medida que los tamaños de muestra se vuelven más desiguales. Esto significa que los grados de libertad diferirán en un factor de casi 2 basado solo en las variaciones de la muestra. Incluso para tamaños de muestra de tamaño razonable (digamos 10 o 20) la situación ilustrada en la publicación principal puede ocurrir fácilmente.
Cuando se realizan muchas pruebas t, la clasificación de las comparaciones por valor p podría resultar fácilmente en que las mejores comparaciones no lleguen a la parte superior de la lista o se excluyan después de ajustar para múltiples pruebas.
Mi opinión personal es que esta es una falla fundamental en la prueba t de Welch, ya que está diseñada para realizar comparaciones entre muestras con variaciones desiguales, pero cuanto más desiguales se vuelven las variaciones, más se pierde potencia (en el sentido de que el orden de su p -los valores estarán mal).
La única solución que se me ocurre es utilizar algunas pruebas basadas en permutación o transformar los datos para que las variaciones en sus pruebas no estén demasiado lejos entre sí.
fuente
Hasta donde sé, escuché la prueba t de Welch que usa la aproximación Satterthwaite
se verifica para la prueba de significancia 0.05.
Lo que significa que cuando P (combinación lineal de distribución chi-cuadrado> c) = 0.05,
podemos obtener aproximadamente c.
Entonces, creo que el valor p es bastante confiable alrededor de 0.05,
Y obviamente no es así cuando obtiene mucho menos de 0.05.
p1 = 0 p2 = 0 para (m en 1:50) {a <-c (-m + 95.47, -m + 87.90, -m + 99.00) c <-c (38.4, 40.4, 32.8) d <-c (1.8, 1.2, 1.1) p1 [m] = t.test (a, c, var.eqaul = F)p . v a l u e p 2 [ m ] = t . t e s t ( a , d, v a r . e qa u l = F) p.value} plot (1:50, p1, col = "black") puntos (1:50, p2, col = "red")
Puede ver que los valores p se vuelven más correctos a medida que se acerca a 0.05 ...
Por lo tanto, no debemos usar valores p que sean mucho menores que 0.05 cuando usamos la prueba t de Welch.
Si se usa, creo que deberíamos escribir un artículo al respecto.
De todos modos, actualmente estoy escribiendo sobre "Estadísticas" y este tema es intrigante.
Espero usar sus datos para escribir el libro con su permiso.
¿Me dejarías usar tus datos?
Y le agradecería si pudiera decir la fuente de datos y el contexto desde el cual
¡Ellos vinieron!
fuente