¿Puedo hacer un análisis de potencia de prueba t para grupos de tamaños desiguales que produce 2 n mínimos diferentes?

9

Por lo general, es sencillo hacer un Power Analysiscálculo minimum sample size, especialmente en R, que es mi entorno informático estadístico preferido.

Sin embargo, se me pide que realice un análisis de potencia que sea un poco diferente a todo lo que he hecho o al que puedo encontrar referencias en línea. Me pregunto si lo que se me pide es incluso posible / válido.

El proyecto básicamente tiene dos unequal groupsestados y la hipótesis es que estos dos grupos son significativamente diferentes en términos de una variable de resultado (que es la duración de las llamadas telefónicas a los clientes). El grupo "control" consta de 40 estados y produjo alrededor de 2.500 observaciones. El grupo "prueba" tiene alrededor de 10 estados y 500 observaciones.

Inicialmente, encontré el grupo means+ pooled standard deviation, que usé para calcular un Effect Size. Luego utiliza un paquete llamado pwren Ry se encontró que tenía un tamaño de muestra mínimo de alrededor de 135 observaciones por grupo, dado .05 significado y 0,8 poder.

Sin embargo, rechazaron mi respuesta porque quieren que un grupo sea mucho más grande que el otro como lo es ahora, y esperan dos números mínimos diferentes de observaciones por grupo o un porcentaje mínimo de la población en términos de números de estados o observaciones que tienen que ir a su grupo de "prueba".

Veo análisis de potencia para dos pruebas t de muestra (es decir, la función R pwr.t2n.test), pero tendría que especificar al menos uno de los tamaños de muestra, mientras que quieren que les diga el tamaño de muestra mínimo para ambos grupos (ya sea como números o porcentajes) y esta función no refleja las diferencias en las desviaciones estándar para los dos grupos.

¿Es esto posible o simplemente les digo que no es así como funciona (es decir, lo mejor que puedo hacer es decirles que, dado uno de los tamaños de muestra y una desviación estándar agrupada, el segundo grupo debe tener al menos un cierto tamaño)?

Hack-R
fuente

Respuestas:

7

Puede hacer cálculos de tamaño de muestra para tamaños de muestra desiguales.

Por ejemplo, puede decidir que los n están en alguna proporción (tal vez en proporción a las poblaciones tal vez).

Entonces es posible hacer cálculos de potencia (al menos puede simular para obtener la potencia en cualquier conjunto particular de circunstancias, ya sea que pueda o no hacer el álgebra).

El problema es que es relativamente ineficiente para encontrar diferencias en comparación con el mismo número total de observaciones a tamaños de muestra iguales.

Imagine que tiene una muestra total de , con una varianza igual en la población y una varianza de muestra casi igual, y que su elección fue entre una división 50-50 y una división 90-10 ( vs ).norte=norte1+norte2norte1=0,5nortenorte1=0.9norte

La estadística t de dos muestras es:

t=X¯1-X¯2sagrupados1norte1+1norte2

El impacto del tamaño de la muestra está en el término .1/ /1norte1+1norte2

Si tiene la división 50-50, es como tener una desviación estándar un 40% más pequeña; en un determinado , puede obtener un efecto sustancialmente menor con la división uniforme.norte1+norte2

Si el tamaño de la muestra combinada no es una restricción efectiva, este cálculo puede no tener sentido. Importa en los casos en que cada observación conlleva el mismo costo marginal, que no siempre es relevante.

Glen_b -Reinstate a Monica
fuente
¡Gracias! Entonces, llevar a cabo esto es mi mejor opción, simplemente usar algo como pwr.t2n.test () en R para básicamente todas las combinaciones posibles dado un tamaño de muestra combinado, ¿o hay una mejor manera que recomendarías para calcular esto? Si usa otro idioma / paquete, entonces puedo descubrir cómo traducir su respuesta a R. En cualquier caso, gracias por su solución.
Hack-R
No entiendo lo que estás haciendo aquí. Por lo que puedo decir, no tienes la capacidad de dividir en la proporción que quieras; mi ejemplo fue ilustrar el efecto de divisiones desiguales. Si tiene un tamaño de muestra total fijo, divídalo tan cerca como 50-50 como se aceptaría. Si no tiene un tamaño de muestra total fijo, entonces se optimiza en función de los costos y las limitaciones que realmente existen.
Glen_b -Reinstate Monica
El alcance de mi información es que actualmente tienen esos dos grupos realmente desiguales que suman un total de 3.000 observaciones en 50 estados de EE. UU. Piden la cantidad mínima de observaciones por grupo y / o el% que debe ir a cada grupo, en función de las medias y las desviaciones estándar que obtengo de los datos. No tengo idea de si podrían dividir los datos 50-50 o de la manera que quisieran, pero les iba a mostrar el mínimo n en el grupo 2 para cada valor de n del grupo 1 y también les mostraría el costo de las divisiones que no sean 50 -50, probablemente en términos de poder. Pensé que eso era más o menos lo que sugeriste
Hack-R
Veo. Ciertamente podría calcular algo así, pero no necesariamente tendría que hacerlo en cadanorte; Estas cosas progresan sin problemas.
Glen_b -Reinstate Monica
1
@Glen: Es por eso que intenté eliminar rápidamente mi comentario sobre la (des) utilidad de en la prueba en el análisis de duración. Pero eras aún más rápido. Otra preocupación es la estructura agrupada de los datos. Pero su respuesta se ajusta exactamente a la pregunta.
Michael M
2

En primer lugar, ¿por qué asume variaciones iguales en los dos grupos? Por favor no diga: "Porque es conveniente". Dudo seriamente que las variaciones del grupo sean iguales, aunque en el caso de tamaños de muestra iguales no es crucial. Tus grados de libertad se reducirán, pero sabes que tienes al menos 130, ¿a quién le importa? Hay preguntas mucho más grandes que abordar.

Si va a permitir (o requerir) tamaños de muestra de grupo desiguales, el problema no tendrá una solución única. Hay dos incógnitas (norte1 y norte2 y solo una restricción (el poder debe ser al menos ϕ.) No creo que el problema pueda resolverse sin una restricción adicional. Hay dos posibilidades obvias. El primero es fijar uno de los tamaños de muestra (por ejemplo, los patrocinadores quieren al menos 300 observaciones del Grupo I). El otro es fijar la relación (por ejemplo, porque el Grupo I es diez veces el recuento del Grupo II, queremosnorte1=10norte2) Ahora proceda con su análisis de poder.

Dennis
fuente
¿Cómo asumí que había variaciones iguales? Sé que no hay ... por eso estaba preguntando sobre la posibilidad de usar las diferentes desviaciones estándar para cada grupo para hacer un cálculo, aunque la forma normal de hacer un Análisis de potencia es usar desviaciones estándar agrupadas cuando tienes más de 1 grupo.
Hack-R
@NerdLife: la varianza agrupada, que dijiste que usaste, equivale a asumir variaciones iguales. La forma "normal" de hacerlo es asumir quenorte1=norte2, y en ese caso, la agrupación no importa para el valor de la estadística de prueba. El OSL se ve afectado porque los grados de libertad cambian entre\norte1-1 y 2(norte1-1). Pero esos cambios son bastante menores por encima de los 30 df.
Dennis