¿Cómo puede una prueba t ser estadísticamente significativa si la diferencia de medias es casi 0?

10

Estoy tratando de comparar datos de 2 poblaciones para saber si la diferencia entre los tratamientos es estadísticamente significativa. Los conjuntos de datos parecen estar distribuidos normalmente con muy poca diferencia entre los dos conjuntos. La diferencia promedio es 0.00017. Realicé una prueba t pareada, esperando no poder rechazar la hipótesis nula de que no hay diferencia entre las medias, sin embargo, mi valor t calculado es mucho mayor que mi valor t crítico.

statistical-significance t-test paired-data Kscicc26
fuente

¿Sobre qué quieres sugerencias? ¿Cuáles son tus N?

gung - Restablece a Monica

hola, simplemente no estoy realmente seguro de cómo proceder, si hice algo mal para comenzar, ya que los datos no parecen ser diferentes en absoluto. Ambos grupos tienen 335 observaciones

Kscicc26

55

El error estándar de la diferencia de medias también es una función de las desviaciones estándar y de los tamaños de muestra. Todas estas piezas deberán estar en su pregunta antes de que se pueda registrar cualquier sorpresa.

Glen_b -Reinstale a Monica

77

¡Cada diferencia es "casi 0"! Si la variable de resultado es el peso ganado por las personas y se mide en libras, entonces 0,00017 es realmente pequeño, pero si se mide en millones de libras, entonces 0,00017 es enorme. Por lo tanto, esta pregunta no tiene sentido hasta que se proporcione un contexto (lo que se está midiendo en la respuesta) y una unidad de medida.

whuber

1

La significación estadística no significa "significación" en el sentido más amplio del significado en inglés.

david25272

9

No veo ninguna razón para creer que hiciste algo mal solo porque la prueba fue significativa, incluso si la diferencia de medias es muy pequeña. En una prueba t pareada, la importancia estará determinada por tres cosas:

la magnitud de la diferencia de medias
la cantidad de datos que tienes
la desviación estándar de las diferencias

Es cierto que su diferencia de medias es muy, muy pequeña. Por otro lado, tiene una buena cantidad de datos (N = 335). El último factor es la desviación estándar de las diferencias. No sé qué es eso, pero dado que obtuvo un resultado significativo, es seguro asumir que es lo suficientemente pequeño como para superar la pequeña diferencia media con la cantidad de datos que tiene. En aras de construir una intuición, imagine que la diferencia pareada para cada observación en su estudio fue 0.00017, luego la desviación estándar de las diferencias sería 0. Seguramente, sería razonable concluir que el tratamiento condujo a una reducción (aunque una pequeña)

Como señala @whuber en los comentarios a continuación, vale la pena señalar que, aunque 0.00017 parece un número muy pequeño en cuanto número, no es necesariamente pequeño en términos significativos. Para saber eso, necesitaríamos saber varias cosas, en primer lugar cuáles son las unidades. Si las unidades son muy grandes (por ejemplo, años, kilómetros, etc.), lo que parece ser pequeño podría ser significativamente grande, mientras que si las unidades son pequeñas (por ejemplo, segundos, centímetros, etc.), esta diferencia parece aún menor. En segundo lugar, incluso un pequeño cambio puede ser importante: imagine algún tipo de tratamiento (p. Ej., Vacuna) que fuera muy barato, fácil de administrar a toda la población y que no tuviera efectos secundarios. Puede valer la pena hacerlo incluso si solo salvó unas pocas vidas.

gung - Restablece a Monica
fuente

¡Gracias por la respuesta! No estoy demasiado versado en las estadísticas, así que me sorprendió cuando no recibí la respuesta que esperaba obtener. El error estándar de las diferencias entre las medias es: 7.36764E-05. No estoy seguro de cuál es la relevancia de eso, pero estoy seguro de que sí, jaja. de nuevo gracias por su ayuda

Kscicc26

De nada, @ Kscicc26. El error estándar de las diferencias y la desviación estándar de las diferencias no son lo mismo. (Trágicamente, suenan como deberían ser). El SD le dice cuánto varían sus diferencias, mientras que el SE le dice cuántas estimaciones de la diferencia media variarían si realizara su estudio una y otra vez. Puede ayudarlo a leer mi descripción de SE aquí .

gung - Restablece a Monica

¡Lo comprobaré y volveré a este hilo por la mañana!

Kscicc26

2

Esta diferencia de medias no es pequeña ni grande: simplemente no tiene base para evaluar su tamaño.

whuber

@whuber, ese es un buen punto: no sé a qué se refieren estos números. Pero el OP presumiblemente hace y piensa que es muy pequeño. Voy con esa información.

gung - Restablece a Monica

9

Para saber si una diferencia es realmente grande o pequeña requiere alguna medida de escala, la desviación estándar es una medida de escala y es parte de la fórmula de la prueba t para explicar en parte esa escala.

Considere si está comparando las alturas de los niños de 5 años con las alturas de los de 20 años (humanos, misma área geográfica, etc.). La intuición nos dice que hay una diferencia práctica allí y si las alturas se miden en pulgadas o centímetros, entonces la diferencia se verá significativa. Pero, ¿y si conviertes las alturas a kilómetros? o años luz? entonces la diferencia será un número muy pequeño (pero aún diferente), pero (salvo error de redondeo) la prueba t dará los mismos resultados si la altura se mide en pulgadas, centímetros o kilómetros.

Entonces, una diferencia de 0.00017 puede ser enorme dependiendo de la escala de las mediciones.

Greg Snow
fuente

4

Si su crítica es menor de lo que calculó, y suponiendo que la prueba fue apropiada para su tipo particular de datos (un "si" importante), parece que su diferencia es estadísticamente significativa en el sentido de . Una significativa en el contexto apropiado generalmente significa que su diferencia observada es demasiado confiablemente distinta de cero para soportar la hipótesis nula de que los datos no son "absolutamente diferentes". Incluso una diferencia de puede ser estadísticamente significativa desde cero si cada diferencia observada es entre .00015 – .00020. ¡Observar! $t$ unlikely to emerge at least as large in another, similar pair of samples selected randomly from the same populations if the null hypothesis of no difference is literally true of those populations $t$ $\frac{17}{100,000}$

pop1=rep(15:20* .00001, 56);pop2=rep(0,336) #Some fake samples of sample size = 336
t.test(pop1,pop2,paired=T)                #Paired t-test with the following output...

t_{(335)} = 187.55, p < 2.2 \times 10^{- 16}

$t_{(335)}=187.55,p<2.2\times10^{-16}$

Debido a que estas muestras son muy consistentemente diferentes, la diferencia alcanza significación estadística, a pesar de que son de menor escala de lo que muchos de nosotros estamos acostumbrados a ver en números cotidianos y mundanos. De hecho, puede reducir los datos tanto como desee agregando tantos ceros como puedan manejar sus cálculos al frente de .00001mi primera línea de código R. Esto también reducirá la desviación estándar de las diferencias; es decir, sus diferencias permanecerán igual de consistentes, su permanecerá exactamente igual, y también lo será su importancia. $t$

Tal vez estaría más interesado en la importancia práctica que en este sentido literal de prueba de significado de hipótesis nula. La importancia práctica dependerá mucho más del significado de sus datos en contexto que de la importancia estadística; No es una cuestión puramente estadística. Cité un ejemplo útil de este principio en una respuesta a una pregunta popular aquí, Acomodando puntos de vista arraigados de los valores p :

No se puede concluir por el tamaño solo que un es necesariamente importante si se trata de una cuestión de vida o muerte ^{[(Rosenthal, Rubin y Rosnow, 2000)]} . $r=.03$

Esta "cuestión de vida o muerte" fue el tamaño del efecto de la aspirina en los ataques cardíacos, básicamente, un poderoso ejemplo de diferencias numéricamente pequeñas y mucho menos consistentes con un significado prácticamente importante. Muchas otras preguntas con respuestas sólidas de las que podría beneficiarse merecen enlaces aquí, que incluyen:

Referencia

Rosenthal, R., Rosnow, RL y Rubin, DB (2000). Contrastes y tamaños de efectos en la investigación conductual: un enfoque correlacional . Prensa de la Universidad de Cambridge.

Nick Stauner
fuente

0

Aquí hay un ejemplo en R que muestra los conceptos teóricos en acción. 10,000 intentos de lanzar una moneda 10,000 veces que tiene una probabilidad de cara de .0001 en comparación con 10,000 intentos de lanzar una moneda 10,000 veces que tiene una probabilidad de cara de .00011

t.test (rbinom (10000, 10000, .0001), rbinom (10000, 10000, .00011))

t = -8.0299, df = 19886.35, valor p = 1.03e-15 hipótesis alternativa: la verdadera diferencia en las medias no es igual a 0 95 por ciento intervalo de confianza: -0.14493747 -0.08806253 estimaciones de la muestra: media de la media x de y 0.9898 1.1063

La diferencia en la media está relativamente cerrada a 0 en términos de percepción humana, sin embargo, es estadísticamente muy diferente a 0.

Andrew Cassidy
fuente

¿Cómo puede una prueba t ser estadísticamente significativa si la diferencia de medias es casi 0?

Respuestas: