¿Cómo elegir el nivel de significación para un gran conjunto de datos?

15

Estoy trabajando con un conjunto de datos que tiene N alrededor de 200,000. En las regresiones, veo valores de significancia muy pequeños << 0.001 asociados con tamaños de efectos muy pequeños, por ejemplo, r = 0.028. Lo que me gustaría saber es, ¿hay alguna forma de principio de decidir un umbral de importancia apropiado en relación con el tamaño de la muestra? ¿Hay alguna otra consideración importante sobre la interpretación del tamaño del efecto con una muestra tan grande?

ted.strauss
fuente
10
Este es un tema de importancia práctica versus estadística. Si la pendiente es realmente diferente de 0, incluso en una cantidad minúscula, por ejemplo, .00000000000001), una muestra lo suficientemente grande producirá un valor muy pequeño , a pesar de que el resultado no tiene importancia práctica. Sería mejor interpretar la estimación puntual en lugar del valor p cuando tiene un tamaño de muestra tan grande. pp
Macro
@Macro lo siento, ¿puedes aclarar lo que quieres decir con estimar puntos aquí?
ted.strauss
33
Además del comentario de Macro anterior, en esta situación busco un significado "práctico" o "clínico" en los hallazgos. Por lo que estás haciendo, ¿es el efecto lo suficientemente grande como para que te importe?
Michelle
1
La estimación puntual es la estimación de la pendiente de regresión observada.
Macro
2
Lo que @Macro y yo decimos es que debe decidir si el efecto clínico (estimaciones puntuales, pendientes) es importante. Su umbral se basa en decidir "sí, este es un efecto clínico importante" en lugar de "un valor p significativo" porque la mayoría (¿todos?) De sus valores p son significativos.
Michelle

Respuestas:

20

En La prueba de la insignificancia de la significancia , Johnson (1999) señaló que los valores p son arbitrarios, ya que puede hacerlos tan pequeños como desee mediante la recopilación de datos suficientes, suponiendo que la hipótesis nula sea falsa, lo que casi siempre es. En el mundo real, es improbable que existan correlaciones semi-parciales que sean exactamente cero, lo cual es la hipótesis nula para probar la importancia de un coeficiente de regresión. Los valores de corte de significancia del valor P son aún más arbitrarios. El valor de .05 como límite entre significancia y no significación se usa por convención, no por principio. Entonces, la respuesta a su primera pregunta es no, no hay una forma de principios para decidir sobre un umbral de importancia apropiado.

Entonces, ¿qué puede hacer, dado su gran conjunto de datos? Depende de su (s) motivo (s) para explorar el significado estadístico de sus coeficientes de regresión. ¿Estás tratando de modelar un sistema multifactorial complejo y desarrollar una teoría útil que se ajuste o prediga razonablemente la realidad? Entonces, tal vez podría pensar en desarrollar un modelo más elaborado y adoptar una perspectiva de modelado sobre él, como se describe en Rodgers (2010), The Epistemology of Mathematical And Statistic Modeling . Una ventaja de tener una gran cantidad de datos es poder explorar modelos muy ricos, con niveles múltiples e interacciones interesantes (suponiendo que tenga las variables para hacerlo).

Si, por otro lado, desea hacer un juicio sobre si tratar un coeficiente particular como estadísticamente significativo o no, puede tomar la sugerencia de Good (1982) como se resume en Woolley (2003) : Calcule el valor q como que estandariza los valores p a un tamaño de muestra de 100. Un valor p de exactamente .001 se convierte en un valor p de .045, aún estadísticamente significativo.p(n/100)

Entonces, si es significativo usar un umbral arbitrario u otro, ¿qué pasa con eso? Si este es un estudio observacional, tiene mucho más trabajo para justificar que en realidad es significativo en su forma de pensar y no solo una relación espuria que aparece porque ha especificado mal su modelo. Tenga en cuenta que un pequeño efecto no es tan clínicamente interesante si representa diferencias preexistentes entre las personas que seleccionan diferentes niveles de tratamiento en lugar de un efecto del tratamiento.

Debe considerar si la relación que está viendo es prácticamente significativa, como han señalado los comentaristas. La conversión de las cifras que cita de a r 2 para la varianza explicada ( r es la correlación, cuadrándola para obtener la varianza explicada) da solo 3 y 6% de varianza explicada, respectivamente, lo que no parece mucho.rr2r

Anne Z.
fuente
@ rolando2 gracias por la edición, ¡siempre confundiéndose entre valores p grandes / pequeños! Creo que si está fuera del derecho de distribución es grande, pero el valor p es pequeño.
Anne Z.
2
(+1) Este es un hecho importante en el que muchos profesionales no piensan cuidadosamente: "los valores p son arbitrarios, ya que puedes hacerlos tan pequeños como desees reuniendo suficientes datos, suponiendo que la hipótesis nula sea falsa, lo cual casi siempre lo es ".
Macro
¡Gracias! Los puntos en su penúltimo párrafo están bien tomados. Estoy leyendo el artículo de Woolley y noté que su fórmula de valor q está desactivada. Debería ser p * no p / - Intenté cambiarlo aquí pero las ediciones deben ser> 6 caracteres.
ted.strauss
@ ted.strauss Me alegro de que sea útil. A veces me siento desanimado por las limitaciones de las herramientas como los valores p con los que tenemos que trabajar. Gracias por notar el error en la fórmula, lo he solucionado.
Anne Z.
Gracias por la maravillosa respuesta. Pero no puedo acceder al documento Woolley 2003 utilizando el enlace proporcionado anteriormente.
KarthikS
-3

Supongo que una forma fácil de verificar sería muestrear aleatoriamente un número similarmente grande de lo que sabe que es una distribución dos veces y comparar los dos resultados. Si lo hace varias veces y observa valores p similares, sugeriría que no hay un efecto real. Si por otro lado no lo hace, entonces probablemente sí.

Lars Kotthoff
fuente
77
p<.001pp
1
pUniform(0,1)
1
H0pU[0,1]T=T(X)t=t(x)pp(t)=P(TtH0)H0TG0G0G01p(t)=1G0(t)u[0,1]
1
P(p(T)u)=P(1G0(T)u)=P(G0(T)1u)=P(TG01(1u))=1G0(G01(1u))=u.
p(T)H0U[0,1]