¿Son inapropiados los grandes conjuntos de datos para la prueba de hipótesis?

129

En un artículo reciente de Amstat News , los autores (Mark van der Laan y Sherri Rose) declararon que "Sabemos que para tamaños de muestra lo suficientemente grandes, cada estudio, incluidos aquellos en los que la hipótesis nula de ningún efecto es verdadera, declarará un efecto estadísticamente significativo ".

Bueno, por mi parte, no lo sabía. ¿Es esto cierto? ¿Significa que la prueba de hipótesis no tiene valor para grandes conjuntos de datos?

Carlos Accioly
fuente
10
+1: esta pregunta generalmente expone algunos puntos de vista interesantes.
user603
77
Más discusión sobre grandes conjuntos de datos aparece en stats.stackexchange.com/q/7815/919 . (El foco está en el modelo de regresión allí.)
whuber
1
hilo relacionado ?
Antoine
8
Si una muestra grande te hace pensar que la prueba de hipótesis era la herramienta incorrecta, entonces la prueba de hipótesis tampoco respondía realmente a la pregunta correcta en muestras más pequeñas: que estaba equivocado se volvió más obvio en muestras de gran tamaño, pero las mismas consideraciones son relevantes . Si un resultado significativo con un tamaño de efecto muy pequeño te hace decir "bueno, eso no es lo que quería, quería que me dijera si era importante", entonces la prueba de hipótesis era la herramienta incorrecta para empezar. Existen herramientas más adecuadas (por ejemplo, intervalos de confianza, pruebas de equivalencia, etc.) para ese tipo de problema.
Glen_b

Respuestas:

91

No es verdad. Si la hipótesis nula es cierta, no se rechazará con mayor frecuencia en muestras grandes que en pequeñas. Hay una tasa de rechazo errónea que generalmente se establece en 0.05 (alfa) pero es independiente del tamaño de la muestra. Por lo tanto, tomado literalmente, la afirmación es falsa. Sin embargo, es posible que en algunas situaciones (incluso campos completos) todos los valores nulos sean falsos y, por lo tanto, todos serán rechazados si N es lo suficientemente alto. ¿Pero es esto algo malo?

Lo cierto es que se puede encontrar que los efectos trivialmente pequeños son "significativos" con tamaños de muestra muy grandes. Eso no sugiere que no deba tener muestras de tamaños tan grandes. Lo que significa es que la forma en que interpreta su hallazgo depende del tamaño del efecto y la sensibilidad de la prueba. Si tiene un tamaño de efecto muy pequeño y una prueba altamente sensible, debe reconocer que el hallazgo estadísticamente significativo puede no ser significativo o útil.

Dado que algunas personas no creen que una prueba de la hipótesis nula, cuando el nulo es verdadero , siempre tenga una tasa de error igual al punto de corte seleccionado para cualquier tamaño de muestra, aquí hay una simulación simple para Rprobar el punto. Haga N tan grande como desee y la tasa de errores de Tipo I permanecerá constante.

# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000

ps <- replicate(nsamp, {
    #population mean = 0, sd = 1 for both samples, therefore, no real effect
    y1 <- rnorm(n, 0, 1) 
    y2 <- rnorm(n, 0, 1)
    tt <- t.test(y1, y2, var.equal = TRUE)
    tt$p.value
})
sum(ps < .05) / nsamp

# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.
John
fuente
8
+1: de hecho, las tres respuestas aquí son lógicamente consistentes entre sí.
user603
1
Finalmente encontré una desacreditación de algo que un profesor (no estadístico) me dijo hace mucho tiempo.
Jase
1
@Sympa, no. El hecho de que SE disminuya a medida que N aumenta no significa que siempre encontrará un efecto con N grande (ver simulación). Tenga en cuenta que a medida que el SE disminuye, la calidad de la estimación del efecto aumenta. Si no hay efecto de población, es mucho más probable que esté cerca de 0 y no muestre ninguna diferencia. De hecho, la distribución de los valores p es plana, independientemente del tamaño de la muestra, siempre que el valor nulo sea verdadero (escriba su propia simulación para eso). No hay contradicción en la respuesta.
John
44
Entonces te equivocarías. Es posible que desee considerar leer las otras respuestas aquí también. Como no puede seguir la relación entre la simulación y la prueba de hipótesis, supongo que solo puedo señalar su reclamo principal de que a medida que el error estándar disminuye, t aumenta y p disminuye. Esto solo es cierto si el efecto se mantiene constante. Pero el efecto es una muestra aleatoria y cuando el efecto verdadero es 0 entonces, a medida que N aumenta, el efecto observado tiende a disminuir. Por lo tanto, aunque a medida que N aumenta, SE disminuye, no aumentará los valores t porque el numerador en el valor t también será más bajo.
John
1
El hecho de que rnorm no pueda producir un número irracional es irrelevante en el ejemplo. Incluso si no es exactamente normal a partir de una media de 0 y sd de 1, es lo mismo no normal para ambas muestras. La tasa de error de Tipo I podría estar ligeramente fuera de .05, pero debería mantenerse constante independientemente de N. Y no es cierto para todas las simulaciones, ya que podría haber elegido una discreta donde esto no es un problema. (Si realmente quisiera plantear un problema esotérico, entonces debería haber abordado la pseudoaleatoriedad.)
John
31

Estoy de acuerdo con las respuestas que han aparecido, pero me gustaría agregar que quizás la pregunta podría ser redirigida. Si probar una hipótesis o no es una pregunta de investigación que, al menos en general, debería ser independiente de la cantidad de datos que uno tiene. Si realmente necesita probar una hipótesis, hágalo y no tenga miedo de su capacidad para detectar pequeños efectos. Pero primero pregunte si eso es parte de sus objetivos de investigación.

Ahora para algunas objeciones:

  • Algunas hipótesis nulas son absolutamente ciertas por construcción. Cuando está probando un generador de números pseudoaleatorios para la equidistribución, por ejemplo, y ese PRG está verdaderamente equidistribuido (lo que sería un teorema matemático), entonces el valor nulo se mantiene. Probablemente la mayoría de ustedes puedan pensar en ejemplos más interesantes del mundo real que surjan de la aleatorización en experimentos en los que el tratamiento realmente no tiene ningún efecto. (Yo mostraría toda la literatura sobre esp como ejemplo. ;-)

  • En una situación en la que un nulo "simple" se prueba contra una alternativa "compuesta", como en las pruebas t o z clásicas, generalmente se necesita un tamaño de muestra proporcional a para detectar un tamaño de efecto de . Hay un límite superior práctico para esto en cualquier estudio, lo que implica que hay un límite inferior práctico en un tamaño de efecto detectable. Entonces, como cuestión teórica, der Laan y Rose son correctos, pero debemos tener cuidado al aplicar su conclusión. ϵ1/ϵ2ϵ

whuber
fuente
α
@fcop Sus comentarios, aunque correctos, parecen estar dirigidos a otras respuestas. Perdieron el punto de este, que es sugerir que no todos los análisis estadísticos necesitan ser pruebas de hipótesis. Los errores de tipo I y II solo tienen significado cuando se realizan pruebas formales de hipótesis.
whuber
H0:μ=1H1:μ1
@fcop Gracias por explicarlo. Estoy de acuerdo con su razonamiento: cuando el nulo es verdadero, entonces, por construcción, incluso los estudios grandes encontrarán un efecto significativo con una probabilidad como máximo del tamaño de su prueba, es decir, es poco probable que encuentren un efecto significativo.
whuber
19

La prueba de hipótesis tradicionalmente centrada en los valores de p para obtener significación estadística cuando alfa es menor que 0.05 tiene una debilidad importante. Y es que con un tamaño de muestra lo suficientemente grande, cualquier experimento puede eventualmente rechazar la hipótesis nula y detectar diferencias trivialmente pequeñas que resultan ser estadísticamente significativas.

Esta es la razón por la cual las compañías farmacéuticas estructuran los ensayos clínicos para obtener la aprobación de la FDA con muestras muy grandes. La muestra grande reducirá el error estándar a cerca de cero. Esto, a su vez, aumentará artificialmente la estadística t y reducirá proporcionalmente el valor p a cerca del 0%.

Me reúno dentro de las comunidades científicas que no están corrompidas por incentivos económicos y las pruebas de hipótesis de conflicto de intereses relacionadas se están alejando de cualquier medición del valor p hacia mediciones del Tamaño del efecto. Esto se debe a que la unidad de distancia estadística o diferenciación en el análisis de Tamaño del efecto es la desviación estándar en lugar del error estándar. Y, la desviación estándar es completamente independiente del tamaño de la muestra. El error estándar, por otro lado, depende totalmente del tamaño de la muestra.

Por lo tanto, cualquiera que sea escéptico de que las pruebas de hipótesis alcancen resultados estadísticamente significativos basados ​​en muestras grandes y metodologías relacionadas con el valor p es correcto ser escéptico. Deberían volver a ejecutar el análisis utilizando los mismos datos pero utilizando en su lugar pruebas estadísticas de Tamaño del efecto. Y, luego observe si el Tamaño del efecto se considera material o no. Al hacerlo, podría observar que un montón de diferencias que son estadísticamente significativas están asociadas con el Tamaño del efecto que no tiene importancia. Eso es lo que los investigadores de ensayos clínicos a veces quieren decir cuando un resultado es estadísticamente significativo pero no "clínicamente significativo". Significan que ese tratamiento puede ser mejor que el placebo, pero la diferencia es tan marginal que no haría ninguna diferencia para el paciente dentro de un contexto clínico.

Sympa
fuente
1
La muestra grande de una persona es la muestra pequeña de otra. :)
Iterator
3
¿No hiciste la pregunta equivocada entonces? ¿Quizás el proceso de aprobación de la FDA debería especificar una ganancia mayor frente al placebo (quizás relacionado con los costos del medicamento, incluidos sus efectos adversos) en lugar de solo requerir significación estadística? Porque bien puede haber una diferencia real, aunque muy pequeña, y se demostró que esa diferencia es estadísticamente significativa por pequeña que sea.
Emil Vikström
La FDA no requiere "solo significación estadística". Eso sería absurdo. Todos en la industria entienden lo que significa "clínicamente significativo". La FDA sopesa la evidencia estadística de la eficacia del medicamento medida por puntos finales clínicos, como la remisión, frente a problemas de salud y seguridad. Lea las pautas de la FDA antes de hacer afirmaciones sin fundamento.
qwr
15

Una prueba de hipótesis (frecuentista), precisamente, aborda la cuestión de la probabilidad de los datos observados o algo más extremo probablemente supondría que la hipótesis nula es verdadera. Esta interpretación es indiferente al tamaño de la muestra. Esa interpretación es válida ya sea que la muestra sea de tamaño 5 o 1,000,000.

Una advertencia importante es que la prueba solo es relevante para los errores de muestreo. Cualquier error de medición, problemas de muestreo, cobertura, errores de entrada de datos, etc. están fuera del alcance del error de muestreo. A medida que aumenta el tamaño de la muestra, los errores ajenos al muestreo se vuelven más influyentes ya que pequeñas desviaciones pueden producir desviaciones significativas del modelo de muestreo aleatorio. Como resultado, las pruebas de significación se vuelven menos útiles.

Esto de ninguna manera es una acusación de prueba de significación. Sin embargo, debemos tener cuidado con nuestras atribuciones. Un resultado puede ser estadísticamente significativo. Sin embargo, debemos ser cautelosos acerca de cómo hacemos las atribuciones cuando el tamaño de la muestra es grande. ¿Se debe esa diferencia a nuestro proceso de generación hipotético frente a un error de muestreo o es el resultado de una serie de posibles errores ajenos al muestreo que podrían influir en el estadístico de prueba (que el estadístico no tiene en cuenta)?

Otra consideración con muestras grandes es la importancia práctica de un resultado. Una prueba significativa podría sugerir (incluso si podemos descartar un error que no sea de muestreo) una diferencia que es trivial en un sentido práctico. Incluso si ese resultado es poco probable dado el modelo de muestreo, ¿es significativo en el contexto del problema? Dada una muestra lo suficientemente grande, una diferencia en unos pocos dólares podría ser suficiente para producir un resultado que sea estadísticamente significativo al comparar los ingresos entre dos grupos. ¿Es esto importante en algún sentido significativo? La significación estadística no reemplaza el buen juicio y el conocimiento de la materia.

Por otro lado, el nulo no es ni verdadero ni falso. Es un modelo. Es una suposición. Asumimos que el nulo es verdadero y evaluamos nuestra muestra en términos de esa suposición. Si nuestra muestra fuera poco probable dada esta suposición, confiamos más en nuestra alternativa. Cuestionar si un nulo es siempre cierto en la práctica es un malentendido de la lógica de las pruebas de significación.

Brett
fuente
3
Esto respalda un argumento a favor de una mayor complejidad del modelo a medida que los tamaños de la muestra se hacen más grandes; en el caso de la muestra grande, el error de muestreo ya no es la fuente dominante de incertidumbre. Por supuesto, esto solo "tiene sentido" en un marco bayesiano, que permite otras fuentes de incertidumbre además del error de muestreo.
probabilityislogic
13

Un punto simple que no se menciona directamente en otra respuesta es que simplemente no es cierto que "todas las hipótesis nulas son falsas".

La hipótesis simple de que una moneda física tiene una probabilidad de cara exactamente igual a 0.5, eso es falso.

α

α

Keith Winstein
fuente
9

En cierto sentido, [todas] muchas hipótesis nulas son [siempre] falsas (el grupo de personas que viven en casas con números impares nunca gana exactamente lo mismo en promedio que el grupo de personas que viven en casas con números pares).

Tαn0.5Tααn

Esto no es un defecto de las pruebas estadísticas. Simplemente una consecuencia del hecho de que sin más información (una previa) tenemos que un gran número de pequeñas inconsistencias con el nulo deben tomarse como evidencia contra el nulo. No importa cuán triviales resulten estas inconsistencias.

P^(|μ¯1μ¯2|2>η|η,X)

usuario603
fuente
Eso es extraño ... intuitivamente, esto parece contradecir la Ley de los grandes números.
Carlos Accioly
Carlos:> ¿puedes ser más específico?
user603
n
1
@Carlos, pero la convergencia no significa igualdad; esto está garantizado solo para el límite inalcanzable del infinito. Así que no hay contradicción ;-)
5

La respuesta corta es no". La investigación sobre pruebas de hipótesis en el régimen asintótico de observaciones infinitas e hipótesis múltiples ha sido muy, muy activa en los últimos 15-20 años, debido a los datos de microarrays y aplicaciones de datos financieros. La respuesta larga está en la página del curso de la Estadística 329, "Inferencia simultánea a gran escala", impartida en 2010 por Brad Efron. Se dedica un capítulo completo a la prueba de hipótesis a gran escala.

alegre
fuente
77
Creo que el libro de Efron se centra en una gran cantidad de variables (y los múltiples problemas de prueba que surgen), no en el tamaño de la muestra.
Galit Shmueli
4

La prueba de hipótesis para datos grandes debe tener en cuenta el nivel deseado de diferencia, en lugar de si existe una diferencia o no. No le interesa que H0 indique que la estimación es exactamente 0. Un enfoque general sería probar si la diferencia entre la hipótesis nula y el valor observado es mayor que un valor de corte dado.

X1¯>X2¯

T=X1¯X2¯δS2n+δS2nN(δS2n,1)
T=X1¯X2¯S2nN(δS2n,1)

H0:X1¯X2¯=δ

X1¯X2¯δS2nN(0,1)

HAX1¯X2¯>δ

mod.test <- function(x1,x2,dif,...){
    avg.x1 <- mean(x1)
    avg.x2 <- mean(x2)
    sd.x1 <- sd(x1)
    sd.x2 <- sd(x2)

    sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
    n <- length(x1)
    t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
    ncp <- (dif*sqrt(n)/sd.comb)
    p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
    return(p.val)
}

n <- 5000

test1 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)

test3 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)

test4 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)

Lo que da :

> table(test1<0.05)
FALSE  TRUE 
   24    76 

> table(test2<0.05)
TRUE 
 100 

> table(test3<0.05)
FALSE 
  100 

> table(test4<0.05)
TRUE 
 100 
Joris Meys
fuente
¿No hay un error tipográfico / copia en la primera ecuación?
user603
No lo veo
Joris Meys
4

"¿Significa que la prueba de hipótesis no tiene valor para grandes conjuntos de datos?"

No, eso no significa eso. El mensaje general es que las decisiones tomadas después de realizar una prueba de hipótesis siempre deben tener en cuenta el tamaño del efecto estimado, y no solo el valor p. Particularmente, en experimentos con tamaños de muestra muy grandes, esta necesidad de considerar el tamaño del efecto se vuelve dramática. Por supuesto, en general, a los usuarios no les gusta esto porque el procedimiento se vuelve menos "automático".

Considere este ejemplo de simulación. Supongamos que tiene una muestra aleatoria de 1 millón de observaciones de una distribución normal estándar,

n <- 10^6
x <- rnorm(n)

0.01

y <- rnorm(n, mean = 0.01)

95%2.5×1014

t.test(x, y)

        Welch Two Sample t-test

data:  x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.013554059 -0.008009031
sample estimates:
   mean of x    mean of y 
0.0008947038 0.0116762485

95%[0.013,0.008]

¿Hay alguna diferencia entre los dos medios de población de este orden de magnitud relevante para el problema particular que estamos estudiando o no?

zen
fuente
Estoy de acuerdo con todo en su respuesta, excepto la primera oración, que cambiaría a "Sí, por lo general significa eso", porque con muestras grandes de aproximadamente un millón, los tamaños del efecto son TAN pequeños.
zbicyclist
α
3

HST:d1=1.23,d2=1.11,di

Pero, por lo general, a uno no le interesan estas hipótesis seguras. Si piensa en lo que realmente quiere hacer con la prueba de hipótesis, pronto reconocerá que solo debe rechazar la hipótesis nula si tiene algo mejor para reemplazarla. Incluso si su nulo no explica los datos, no tiene sentido tirarlos, a menos que tenga un reemplazo. Ahora, ¿siempre reemplazarías el nulo con la hipótesis de "algo seguro"? Probablemente no, porque no puede utilizar esta hipótesis de "algo seguro" para generalizar más allá de su conjunto de datos. No es mucho más que imprimir sus datos.

Entonces, lo que debe hacer es especificar la hipótesis de que realmente estaría interesado en actuar si fueran ciertas. Luego haga la prueba adecuada para comparar esas alternativas entre sí, y no con una clase de hipótesis irrelevante que sepa que es falsa o inutilizable.

H0:μ=0H1:μ{±1,±2,±3,±4,±5,±6}0.5100

Básicamente, la conclusión es que debe especificar su espacio de hipótesis, esas hipótesis en las que realmente está interesado. Parece que con los grandes datos, esto se convierte en algo muy importante, simplemente porque sus datos tienen mucho poder de resolución. También parece que es importante comparar una hipótesis similar: punto con punto, compuesto con compuesto, para obtener resultados con buen comportamiento.

probabilidadislogica
fuente
3

No. Es cierto que todas las pruebas de hipótesis de puntos útiles son consistentes y, por lo tanto, mostrarán un resultado significativo si solo el tamaño de la muestra es lo suficientemente grande y existe algún efecto irrelevante. Para superar este inconveniente de las pruebas de hipótesis estadísticas (ya mencionado por la respuesta de Gaetan Lion arriba), existen pruebas de relevancia. Estos son similares a las pruebas de equivalencia, pero aún menos comunes. Para una prueba de relevancia, se especifica previamente el tamaño de un efecto mínimo relevante. Una prueba de relevancia puede basarse en un intervalo de confianza para el efecto: si el intervalo de confianza y la región de relevancia son disjuntos, puede rechazar el valor nulo.

Sin embargo, van der Laan y Rose suponen en su declaración que incluso las hipótesis nulas verdaderas se prueban en los estudios. Si una hipótesis nula es cierta, la posibilidad de rechazo no es mayor que alfa, especialmente en el caso de muestras grandes e incluso mal especificadas. Solo puedo ver que la distribución de la muestra es sistemáticamente diferente de la distribución de la población.

Horst Grünbusch
fuente
3

El artículo que menciona tiene un punto válido, en lo que respecta a las pruebas frecuentas estándar. Es por eso que la prueba para un tamaño de efecto dado es muy importante. Para ilustrar, aquí hay una anova entre 3 grupos, donde el grupo B es ligeramente diferente de los grupos A y C. intente esto en r:

treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
  for (i in c(1:reps)){ #repeat anova test ‘reps’ time
    treatA=data.frame(treatment="A", val=rnorm(n)) 
    treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
    treatC=data.frame(treatment="C", val=rnorm(n))
    all_treatment=rbind(treatA, treatB, treatC)
    treatment_aov=aov(val~treatment, data=all_treatment)
    aov_summary=summary(treatment_aov)
    p=aov_summary[[1]][["Pr(>F)"]][1]
    temp_df=data.frame(n=n, p=p)
    p_mat=rbind(p_mat, temp_df)
  }
}

library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()

Como se esperaba, con un mayor número de muestras por prueba, la significancia estadística de la prueba aumenta: ingrese la descripción de la imagen aquí

Lucas Fortini
fuente
2

Creo que lo que quieren decir es que a menudo se supone que la densidad de probabilidad de la hipótesis nula tiene una forma 'simple' pero no corresponde a la densidad de probabilidad verdadera.

Ahora, con conjuntos de datos pequeños, es posible que no tenga suficiente sensibilidad para ver este efecto, pero con un conjunto de datos lo suficientemente grande rechazará la hipótesis nula y concluirá que hay un nuevo efecto en lugar de concluir que su suposición sobre la hipótesis nula es incorrecta.

Andre Holzner
fuente
1
No sé si Mark y Shern tenían en mente su punto de vista, pero solo para reformular su punto: si el modelo para los datos bajo nulo es 'incorrecto', rechazará la hipótesis nula para datos suficientemente grandes.
1

α

H0H1

La potencia aumenta con el tamaño de la muestra (todas las demás cosas son iguales).

Pero la afirmación de que "sabemos que para tamaños de muestra lo suficientemente grandes, cada estudio, incluidos aquellos en los que la hipótesis nula de ningún efecto es verdadera, declarará un efecto estadísticamente significativo". Es incorrecto.


fuente