¿Es el análisis de poder a priori esencialmente inútil?

23

Asistí a una reunión de la Sociedad de Personalidad y Psicología Social la semana pasada donde vi una charla de Uri Simonsohn con la premisa de que usar un análisis de poder a priori para determinar el tamaño de la muestra era esencialmente inútil porque sus resultados son muy sensibles a los supuestos.

Por supuesto, esta afirmación va en contra de lo que me enseñaron en mi clase de métodos y en contra de las recomendaciones de muchos metodólogos prominentes (especialmente Cohen, 1992 ), por lo que Uri presentó algunas pruebas relacionadas con su afirmación. He intentado recrear algunas de estas pruebas a continuación.

Para simplificar, imaginemos una situación en la que tenga dos grupos de observaciones y suponga que el tamaño del efecto (medido por la diferencia de medias estandarizada) es de . Un cálculo de potencia estándar (realizado al usar el paquete a continuación) le indicará que necesitará observaciones para obtener un 80% de potencia con este diseño..5Rpwr128

require(pwr)

size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size, 
           sig.level = .05, 
           power = .80, 
           type = "two.sample", 
           alternative = "two.sided")

Por lo general, sin embargo, nuestras conjeturas sobre el tamaño anticipado del efecto son (al menos en las ciencias sociales, que es mi campo de estudio) solo eso: conjeturas muy aproximadas. ¿Qué sucede entonces si nuestra suposición sobre el tamaño del efecto está un poco fuera de lugar? Un cálculo rápido de potencia le dice que si el tamaño del efecto es lugar de , necesita observaciones, veces el número que necesitaría para tener la potencia adecuada para un tamaño de efecto de . Del mismo modo, si el tamaño del efecto es , solo necesita observaciones, el 70% de lo que necesitaría para tener la potencia adecuada para detectar un tamaño de efecto de.5 200 1.56 .5 .6 90 .50.4.52001.56.5.690.50. Hablando en términos prácticos, el rango en las observaciones estimadas es bastante grande: a .20090200

Una respuesta a este problema es que, en lugar de hacer una suposición pura sobre cuál podría ser el tamaño del efecto, se reúnen pruebas sobre el tamaño del efecto, ya sea a través de literatura pasada o mediante pruebas piloto. Por supuesto, si está haciendo una prueba piloto, desearía que su prueba piloto sea lo suficientemente pequeña como para no simplemente ejecutar una versión de su estudio solo para determinar el tamaño de la muestra necesaria para ejecutar el estudio (es decir, desea que el tamaño de la muestra utilizada en la prueba piloto sea más pequeño que el tamaño de la muestra de su estudio).

Uri Simonsohn argumentó que las pruebas piloto con el propósito de determinar el tamaño del efecto utilizado en su análisis de potencia son inútiles. Considere la siguiente simulación en la que me encontré R. Esta simulación supone que el tamaño del efecto de la población es . Luego realiza "pruebas piloto" de tamaño 40 y tabula el recomendado de cada una de las 10000 pruebas piloto.1000 N.51000N

set.seed(12415)

reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)

for(i in 1:reps)
{
  x <- rep(c(-.5, .5), pilot_n_per_group)
  y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
  # Calculate the standardized mean difference
  size <- (mean(y[x == -.5]) - mean(y[x == .5])) / 
          sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)

  n <- 2 * pwr.t.test(d = size,
                      sig.level = .05, 
                      power = .80,
                      type = "two.sample", 
                      alternative = "two.sided")$n

  ns[i] <- n
}

A continuación se muestra un gráfico de densidad basado en esta simulación. He omitido de las pruebas piloto que recomiendan varias observaciones por encima de para hacer que la imagen sea más interpretable. Incluso centrándose en los resultados menos extremos de la simulación, existe una gran variación en las recomendadas por las pruebas piloto.500 N s 1000204500Ns1000

ingrese la descripción de la imagen aquí

Por supuesto, estoy seguro de que el problema de la sensibilidad a los supuestos solo empeora a medida que el diseño se vuelve más complicado. Por ejemplo, en un diseño que requiere la especificación de una estructura de efectos aleatorios, la naturaleza de la estructura de efectos aleatorios tendrá implicaciones dramáticas para el poder del diseño.

Entonces, ¿qué piensan ustedes de este argumento? ¿Es el análisis de poder a priori esencialmente inútil? Si es así, ¿cómo deberían los investigadores planificar el tamaño de sus estudios?

Patrick S. Forscher
fuente
10
Esto suena como una condena del análisis de poder sin sentido , no del análisis de poder en sí mismo. La pregunta más importante es si se trata de un ataque contra un hombre de paja o si de hecho hay muchas personas que realizan sus análisis de poder (o cualquier otro análisis) sin tener en cuenta su sensibilidad a los supuestos. Si esto último es cierto, es bueno iluminarlos, ¡pero espero que no se desanimen tanto como para abandonar todos los esfuerzos para planificar sus experimentos!
whuber
2
Me recuerda muchas estadísticas.stackexchange.com / q / 2492 / 32036 , y no solo por la similitud sintáctica en la formulación de la pregunta del título. Parece una pregunta de cómo entender los supuestos. Un punto importante en ambos es comprender las sensibilidades de estos análisis al sesgo en lugar de hacer juicios radicales de todo o nada de que sus suposiciones son (a) absolutamente cruciales o (b) completamente insignificantes. Esto es clave para la inferencia útil y no dañina en general. Me temo que no es un hombre de paja; las personas piensan en absolutos con demasiada frecuencia cuando no saben o no pueden saber o preocuparse.
Nick Stauner
55
No quería agregar esto en la pregunta porque estaba interesado en las recomendaciones que otros hicieron, pero la recomendación de Uri Simonsohn al final de la charla fue potenciar su estudio para detectar el efecto más pequeño que le interesaría.
Patrick S. Forscher
99
@ PatrickS.Forscher: Entonces, después de todo lo dicho y hecho, él cree en un análisis de poder a priori. Él solo piensa que el tamaño del efecto debe elegirse sabiamente: no es una suposición de lo que podría ser, sino el valor mínimo que le interesaría. Suena más o menos como la descripción del libro de texto del análisis de poder: asegurarse de tener suficientes datos para que lo que cree que es una diferencia prácticamente significativa se muestre como una diferencia estadísticamente significativa.
Wayne
2
La forma en que Uri enmarcó la charla, creo que cree que el análisis de poder a priori es inútil, ya que generalmente se hace en las ciencias sociales, pero tal vez no como se enseña en otros lugares. De hecho, me enseñaron a basar mi análisis de poder en una conjetura razonable sobre el tamaño del efecto que estoy buscando, no en qué efecto me importaría en términos prácticos.
Patrick S. Forscher

Respuestas:

20

El problema básico aquí es cierto y bastante conocido en las estadísticas. Sin embargo, su interpretación / afirmación es extrema. Hay varios temas a tratar:

NNN50%80%ddd=.5N=1287.9%5.5%.116.9%.112.6%

ingrese la descripción de la imagen aquí

d

80%

En segundo lugar, con respecto a la afirmación más amplia de que los análisis de poder (a priori o de otro modo) se basan en suposiciones, no está claro qué hacer con ese argumento. Por supuesto que lo hacen. También lo hace todo lo demás. No ejecutar un análisis de potencia, sino solo recopilar una cantidad de datos en función de un número que seleccionó de un sombrero, y luego analizar sus datos, no mejorará la situación. Además, sus análisis resultantes seguirán basándose en suposiciones, tal como siempre lo hacen todos los análisis (poderosos o no). Si, en cambio, decide que continuará recopilando datos y volviéndolos a analizar hasta que obtenga una imagen que le guste o se canse, será mucho menos válida (y aún supondrá suposiciones que pueden ser invisibles para el hablante, pero que existen no obstante). En pocas palabras,No hay forma de evitar el hecho de que se hacen suposiciones en la investigación y el análisis de datos .

Puede encontrar estos recursos de interés:

gung - Restablece a Monica
fuente
1
Creo que el argumento de Uri Simonsohn no fue que los supuestos en sí mismos son malos, sino que los análisis de poder en general son tan sensibles a los supuestos que los hacen inútiles para planificar tamaños de muestra. Sin embargo, sus puntos son excelentes, al igual que las referencias que proporcionó (+1).
Patrick S. Forscher
Sus ediciones continúan mejorando esta excelente respuesta. :)
Patrick S. Forscher
3
Estoy de acuerdo en que esta es una gran respuesta, y solo quería que usted (y otros) sepan que lo cité
Jake Westfall
2
@JakeWestfall, buena publicación! En una nota diferente, cuando estudias las cookies, ¿lo haces principalmente al comerlas? ¿Necesita un consultor estadístico en alguno de estos proyectos?
gung - Restablece a Monica