Tamaños de muestra desiguales: cuándo cerrarlo

14

Estoy revisando por pares un artículo de revista académica y los autores escribieron lo siguiente como justificación para no informar ninguna estadística inferencial (identifiqué la naturaleza de los dos grupos):

En total, 25 de los 2.349 (1,1%) encuestados informó X . Nos abstenemos de presentar análisis que comparen estadísticamente el grupo X con el grupo Y (los otros 2,324 participantes) ya que esos resultados podrían estar fuertemente impulsados ​​por casualidad con un resultado tan raro.

Mi pregunta es ¿están justificados los autores de este estudio al tirar la toalla con respecto a la comparación de grupos? Si no, ¿qué podría recomendarles?

Aaron Duke
fuente

Respuestas:

20

Las pruebas estadísticas no hacen suposiciones sobre el tamaño de la muestra. Hay, por supuesto, diferentes supuestos con varias pruebas (por ejemplo, normalidad), pero la igualdad de tamaños de muestra no es una de ellas. A menos que la prueba utilizada sea inapropiada de alguna otra manera (no puedo pensar en un problema en este momento), la tasa de error de tipo I no se verá afectada por tamaños de grupo drásticamente desiguales. Además, su redacción implica (en mi opinión) que creen que lo hará. Por lo tanto, están confundidos acerca de estos problemas.

Por otro lado, las tasas de error de tipo II se verán muy afectadas por s altamente desiguales . Esto será cierto sin importar la prueba (por ejemplo, la prueba t , la prueba U de Mann-Whitney o la prueba z para la igualdad de proporciones se verán afectadas de esta manera). Para ver un ejemplo de esto, vea mi respuesta aquí: ¿Cómo debería uno interpretar la comparación de medias de diferentes tamaños de muestra? Por lo tanto, pueden estar "justificados al tirar la toalla" con respecto a este tema. (Específicamente, si espera obtener un resultado no significativo si el efecto es real o no, ¿cuál es el punto de la prueba?) ntUz

A medida que los tamaños de muestra divergen, la potencia estadística convergerá a . Este hecho en realidad lleva a una sugerencia diferente, de la cual sospecho que pocas personas han oído hablar y probablemente tendrían problemas para obtener revisores anteriores (sin intención de ofender): un análisis de poder de compromiso . La idea es relativamente sencilla: en cualquier análisis de potencia, α , β , n 1 , n 2 y el tamaño del efecto d , existen en relación entre sí. Habiendo especificado todos menos uno, puede resolver el último. Por lo general, las personas hacen lo que se llama un análisis de poder a priori , en el que resuelves Nααβn1n2dN(generalmente está asumiendo ). Por otro lado, se puede fijar n 1 , n 2 , y D , y resolver para α (o equivalentemente β ), si se especifica la relación de tipo I a tipo II índices de error que usted está dispuesto a aceptar. Convencionalmente, α = .05 y β = .20 , entonces usted dice que los errores de tipo I son cuatro veces peores que los errores de tipo I. Por supuesto, un investigador dado podría estar en desacuerdo con eso, pero habiendo especificado una proporción dada, puede resolver qué αn1=n2n1n2dαβα=.05β=.20αdebe usarlo para mantener una potencia adecuada. Este enfoque es una opción lógicamente válida para los investigadores en esta situación, aunque reconozco que lo exótico de este enfoque puede dificultar su venta en la comunidad de investigación más grande que probablemente nunca haya oído hablar de tal cosa.

gung - Restablece a Monica
fuente
Esto es increíblemente útil. También encontré su respuesta a ¿Cómo se debe interpretar la comparación de medias de diferentes tamaños de muestra? útil en mi propia comprensión de este problema. Después de leer su respuesta, presentaré la posibilidad de un análisis de compromiso de poder a los autores (parece una apuesta segura de que no están familiarizados con él) y tal vez sugiera que sean más específicos en sus comentarios con respecto a las preocupaciones sobre el poder.
Aaron Duke
2
De nada, @AaronD. En mi opinión, definitivamente debe alentarlos a que cambien su redacción al mínimo, ya que es engañoso o implica que no entienden el tema. Predeciría que no intentarán el análisis de poder de compromiso, pero también podrían simplemente informar estadísticas descriptivas (medias y DE) y un tamaño del efecto con intervalos de confianza apropiados.
gung - Restablece a Monica
6

Si bien la respuesta de @gung es excelente, creo que hay un tema importante que debe tenerse en cuenta al mirar grupos de tamaños muy diferentes. En general, siempre que se cumplan todos los requisitos de la prueba, la diferencia en los tamaños de los grupos no es importante.

Sin embargo, en algunos casos, el diferente tamaño del grupo tendrá un efecto dramático en la solidez de la prueba contra las violaciones contra estos supuestos. La prueba t no emparejada clásica de dos muestras, por ejemplo, supone la homongenia de la varianza y es robusta contra las violaciones solo si ambos grupos tienen un tamaño similar (en orden de magnitud). De lo contrario, una variación mayor en el grupo más pequeño conducirá a errores de Tipo I. Ahora con la prueba t esto no es un gran problema ya que comúnmente se usa la prueba t Welch en su lugar y no asume homogeneidad de varianza. Sin embargo, pueden surgir efectos similares en modelos lineales.

En resumen, diría que esto de ninguna manera es un obstáculo para un análisis estadístico, pero debe tenerse en cuenta al decidir cómo proceder.

Erik
fuente
8
Creo que el quid de la cuestión aquí no es la aplicabilidad de las pruebas, sino su significado e interpretabilidad. La pregunta se refiere a "encuestados". Esto sugiere fuertemente la posibilidad de una tasa de no respuesta distinta de cero. Incluso una pequeña tasa de no respuesta (una pequeña fracción del uno por ciento) en relación con el tamaño del estudio equivaldría a una enorme tasa de no respuesta en relación con el pequeño subgrupo. Eso pone en duda la representatividad de cualquier subgrupo tan pequeño. Como resultado, es un gran obstáculo para cualquier análisis estadístico.
whuber