¿Existe una "regla" para determinar el tamaño mínimo de muestra requerido para que una prueba t sea válida?
Por ejemplo, se debe realizar una comparación entre las medias de 2 poblaciones. Hay 7 puntos de datos de una población y solo 2 puntos de datos de la otra. Desafortunadamente, el experimento es muy costoso y requiere mucho tiempo, y no es factible obtener más datos.
¿Se puede usar una prueba t? ¿Por qué o por qué no? Proporcione detalles (no se conocen las variaciones y distribuciones de población). Si no se puede usar una prueba t, ¿se puede usar una prueba no paramétrica (Mann Whitney)? ¿Por qué o por qué no?
t-test
sample-size
small-sample
wilcoxon-mann-whitney
Johnny desconcertado
fuente
fuente
Respuestas:
Recomiendo usar la prueba U no paramétrica de Mann-Whitney en lugar de una prueba t no emparejada aquí.
No hay un tamaño de muestra mínimo absoluto para la prueba t , pero a medida que los tamaños de muestra se hacen más pequeños, la prueba se vuelve más sensible a la suposición de que ambas muestras provienen de poblaciones con una distribución normal. Con muestras tan pequeñas, especialmente con una muestra de solo dos, necesitaría estar muy seguro de que las distribuciones de población eran normales, y eso debe basarse en el conocimiento externo, ya que estas muestras pequeñas brindan muy poca información en sí mismas sobre La normalidad o no de sus distribuciones. Pero usted dice que " no se conocen las variaciones y distribuciones de la población " (cursiva mía).
La prueba U de Mann-Whitney no requiere suposiciones sobre la forma paramétrica de las distribuciones, solo requiere la suposición de que las distribuciones de los dos grupos son iguales bajo la hipótesis nula.
fuente
(descargo de responsabilidad: no puedo escribir bien hoy: ¡mi mano derecha está fracturada!)
Contrariamente al consejo de usar una prueba no paramétrica en otras respuestas, debe considerar que para tamaños de muestra extremadamente pequeños, esos métodos no son muy útiles. Es fácil entender por qué: en estudios con un tamaño extremadamente pequeño, no se puede establecer una diferencia entre los grupos a menos que se observe un tamaño de efecto grande. Sin embargo, los métodos no paramétricos no tienen en cuenta la magnitud de la diferencia entre los grupos. Por lo tanto, incluso si la diferencia entre los dos grupos es enorme, con un tamaño de muestra pequeño, una prueba no paramétrica siempre fallará en rechazar la hipótesis nula.
Considere este ejemplo: dos grupos, distribución normal, misma varianza. Grupo 1: promedio 1.0, 7 muestras. Grupo 2: promedio 5, 2 muestras. Hay una gran diferencia entre los promedios.
El valor p calculado es 0.05556 que no rechaza la hipótesis nula (en 0.05). Ahora, incluso si aumenta la distancia entre las dos medias en un factor de 10, obtendrá el mismo valor p:
Ahora los invito a repetir la misma simulación con la prueba t y observar los valores p en el caso de diferencias grandes (promedio 5 frente a 1) y enormes (promedio 50 frente a 1).
fuente
No hay un tamaño mínimo de muestra para una prueba t; la prueba t fue, de hecho, diseñada para muestras pequeñas. En los viejos tiempos, cuando se imprimían las tablas, se veían tablas de prueba t para muestras muy pequeñas (medidas por df).
Por supuesto, como con otras pruebas, si hay una muestra pequeña, solo un efecto bastante grande será estadísticamente significativo.
fuente
Supongo que quiere decir que tiene 7 puntos de datos de un grupo y 2 puntos de datos de un segundo grupo, los cuales son subconjuntos de poblaciones (por ejemplo, subconjunto de hombres y subconjunto de mujeres).
Las matemáticas para la prueba t se pueden obtener de esta página de Wikipedia . Asumiremos una prueba t independiente de dos muestras, con tamaños de muestra desiguales (7 frente a 2) y variaciones desiguales, por lo que aproximadamente a la mitad de esa página. Puede ver que el cálculo se basa en medias y desviaciones estándar. Con solo 7 sujetos en un grupo y 2 sujetos en otro, no puede asumir que tiene buenas estimaciones para la media o la desviación estándar. Para el grupo con 2 sujetos, la media es simplemente el valor que se encuentra exactamente en el medio de los dos puntos de datos, por lo que no está bien estimado. Para el grupo con 7 sujetos, el tamaño de la muestra afecta fuertemente las variaciones (y, por lo tanto, las desviaciones estándar, que son la raíz cuadrada de la variación) porque los valores extremos ejercen un efecto mucho más fuerte cuando se tiene una muestra más pequeña.
Por ejemplo, si mira el ejemplo básico en la página de Wikipedia para la desviación estándar , verá que la desviación estándar es 2, y la varianza (al cuadrado de la desviación estándar) es por lo tanto 4. Pero si solo tuviéramos los dos primeros puntos de datos (el 9 y el 1), la varianza sería 10/2 = 5 y la desviación estándar sería 2.2 y si solo tuviéramos los dos últimos valores (el 4 y el 16), la varianza sería 20/2 = 10 y la desviación estándar sería 3.2. Todavía estamos usando los mismos valores, solo que menos, y podemos ver el efecto en nuestras estimaciones.
Ese es el problema con el uso de estadísticas inferenciales con tamaños de muestra pequeños, sus resultados se verán particularmente afectados por el muestreo.
Actualización: ¿hay alguna razón por la que no pueda simplemente informar los resultados por tema e indicar que se trata de un trabajo exploratorio? Con solo dos casos, los datos son muy similares a un estudio de caso, y estos son (1) importantes para escribir y (2) prácticas aceptadas.
fuente
Interesante artículo relacionado: 'Uso de la prueba t de Student con tamaños de muestra extremadamente bajos' JCF de Winter (en Evaluación práctica, investigación y evaluación) http://goo.gl/ZAUmGW
fuente
Recomendaría comparar las conclusiones que se obtienen tanto con la prueba t como con la prueba de Mann-Whitney, y también echar un vistazo a los diagramas de caja y la probabilidad de perfil de la media de cada población.
fuente
Como una prueba t realizada en muestras pequeñas probablemente no cumple con los requisitos de prueba (principalmente, la normalidad de las poblaciones de las cuales se extrajeron las dos muestras), recomendaría realizar una prueba t de arranque (con variaciones desiguales), siguiendo a Efron B, Tibshirani Rj. Una intrusión a Bootstrap. Boca Raton, FL: Chapman & Hall / CRC, 1993: 220-224. El código para una prueba de arranque sobre los datos proporcionados por Johnny Puzzled en Stata 13 / SE se informa en la imagen de arriba.
fuente
Con un tamaño de muestra de 2, lo mejor que puede hacer es mirar los números individuales en sí mismos y ni siquiera molestarse con el análisis estadístico.
fuente