Eliminaré todos los detalles y experimentos biológicos y citaré solo el problema en cuestión y lo que he hecho estadísticamente. Me gustaría saber si es correcto, y si no, cómo proceder. Si los datos (o mi explicación) no son lo suficientemente claros, intentaré explicarlos mejor editando.
Supongamos que tengo dos grupos / observaciones, X e Y, con tamaño y . Me gustaría saber si las medias de estas dos observaciones son iguales. Mi primera pregunta es:
Si se cumplen los supuestos, ¿es relevante utilizar una prueba t paramétrica de dos muestras aquí? Pregunto esto porque, según tengo entendido, ¿se aplica generalmente cuando el tamaño es pequeño?
Tracé histogramas de X e Y y no estaban distribuidos normalmente, uno de los supuestos de una prueba t de dos muestras. Mi confusión es que, considero que son dos poblaciones y es por eso que verifiqué la distribución normal. Pero luego estoy a punto de realizar una prueba t de dos MUESTRAS ... ¿Es esto correcto?
Según el teorema del límite central, entiendo que si realiza un muestreo (con / sin repetición según el tamaño de su población) varias veces y calcula el promedio de las muestras cada vez, entonces se distribuirá aproximadamente de manera normal. Y, la media de estas variables aleatorias será una buena estimación de la media de la población. Entonces, decidí hacer esto tanto en X como en Y, 1000 veces, y obtuve muestras, y asigné una variable aleatoria a la media de cada muestra. La trama estaba muy normalmente distribuida. La media de X e Y fue de 4.2 y 15.8 (que fue lo mismo que la población + - 0.15) y la varianza fue de 0.95 y 12.11.
Realicé una prueba t en estas dos observaciones (1000 puntos de datos cada una) con variaciones desiguales, porque son muy diferentes (0.95 y 12.11). Y la hipótesis nula fue rechazada.
¿Tiene esto algún sentido? ¿Es este enfoque correcto / significativo o una prueba z de dos muestras es suficiente o es totalmente errónea?También realicé una prueba de Wilcoxon no paramétrica solo para asegurarme (en X e Y originales) y la hipótesis nula también fue rechazada de manera convincente. En el caso de que mi método anterior estuviera completamente equivocado, supongo que hacer una prueba no paramétrica es bueno, ¿excepto por el poder estadístico, tal vez?
En ambos casos, los medios fueron significativamente diferentes. Sin embargo, me gustaría saber si uno o ambos enfoques son defectuosos / totalmente incorrectos y, de ser así, ¿cuál es la alternativa?
Una adición a la respuesta ya muy completa de Greg.
Si te entiendo de la manera correcta, tu punto 3 establece el siguiente procedimiento:
Ahora su suposición es que, para esto, se cumple el teorema del límite central y la variable aleatoria correspondiente se distribuirá normalmente.
Quizás echemos un vistazo a las matemáticas detrás de su cálculo para identificar el error:
Vamos a llamar a sus muestras de , o, en terminología estadística, tiene . Ahora, dibujamos muestras de tamaño calculamos su media. El -ésimo de esos medios se parece a esto:X 1 , ... , X n X 1 , ... , X n ∼ X m kX X1, ... , Xnorte X1, ... , Xnorte∼ X metro k
donde denota el valor entre 1 que se ha dibujado en el sorteo . Calcular la media de todos esos medios da como resultado n iμkyo norte yo
Para ahorrarle la terminología matemática exacta, solo eche un vistazo a esta suma. Lo que sucede es que las se agregan varias veces a la suma. Con todo, sumas números y los divides por . De hecho, está calculando una media ponderada de con pesos aleatorios. 1000 m 1000 m X iXyo 1000 m 1000 m Xyo
Ahora, sin embargo, el Teorema del límite central establece que la suma de muchas variables aleatorias independientes es aproximadamente normal. (Lo que da como resultado que también sea la media aproximadamente normal).
Su suma anterior no produce muestras independientes. Quizás tenga pesos aleatorios, pero eso no hace que sus muestras sean independientes en absoluto. Por lo tanto, el procedimiento escrito en 3 no es legal.
Sin embargo, como ya dijo Greg, usar una prueba en sus datos originales puede ser aproximadamente correcto, si está realmente interesado en la media.t
fuente