Digamos que quiero probar si dos muestras independientes tienen medios diferentes. Sé que la distribución subyacente no es normal .
Si entiendo correctamente, mi estadística de prueba es la media , y para tamaños de muestra lo suficientemente grandes, la media debería distribuirse normalmente incluso si las muestras no lo son. Entonces, una prueba de significancia paramétrica debería ser válida en este caso, ¿verdad? He leído información contradictoria y confusa sobre esto, así que agradecería alguna confirmación (o explicación de por qué estoy equivocado).
Además, he leído que para tamaños de muestra grandes, debería usar el estadístico z en lugar del estadístico t. Pero en la práctica, la distribución t convergerá a la distribución normal y las dos estadísticas deberían ser las mismas, ¿no?
Editar : a continuación hay algunas fuentes que describen la prueba z. Ambos afirman que las poblaciones deben distribuirse normalmente:
Aquí , dice "Independientemente del tipo de prueba Z utilizada, se supone que las poblaciones de las que se extraen las muestras son normales". Y aquí , los requisitos para la prueba z se enumeran como "Dos poblaciones distribuidas normalmente pero independientes, se conoce σ".
Respuestas:
Creo que este es un malentendido común del CLT. El CLT no solo no tiene nada que ver con preservar el error tipo II (que nadie ha mencionado aquí) sino que a menudo no es aplicable cuando debe estimar la varianza de la población. La varianza de la muestra puede estar muy lejos de una distribución chi-cuadrado escalada cuando los datos no son gaussianos, por lo que el CLT puede no aplicarse incluso cuando el tamaño de la muestra excede decenas de miles. Para muchas distribuciones, la SD ni siquiera es una buena medida de dispersión.
Para usar realmente el CLT, una de las dos cosas debe ser cierta: (1) la desviación estándar de la muestra funciona como una medida de dispersión para la distribución verdadera desconocida o (2) se conoce la desviación estándar de la población real. Ese no suele ser el caso. Y un ejemplo de que n = 20,000 es demasiado pequeño para que el CLT "funcione" proviene de tomar muestras de la distribución lognormal como se discutió en otra parte de este sitio.
La desviación estándar de la muestra "funciona" como medida de dispersión si, por ejemplo, la distribución es simétrica y no tiene colas más pesadas que la distribución gaussiana.
No quiero confiar en el CLT para ninguno de mis análisis.
fuente
Dejo este párrafo para que los comentarios tengan sentido: Probablemente, la suposición de normalidad en las poblaciones originales es demasiado restrictiva, y puede ser perdonada centrándose en la distribución de muestreo, y gracias al teorema del límite central, especialmente para muestras grandes.
La aplicación de la prueba es probablemente una buena idea si (como suele ser el caso) no conoce la varianza de la población y, en cambio, utiliza las varianzas muestrales como estimadores. Tenga en cuenta que la suposición de variaciones idénticas puede necesitar probarse con una prueba F de variaciones o una prueba de Lavene antes de aplicar una variación agrupada. Tengo algunas notas sobre GitHub aquí .t
Como mencionas, la distribución t converge a la distribución normal a medida que aumenta la muestra, ya que este gráfico R rápido demuestra:
En rojo está el pdf de una distribución normal, y en púrpura, puede ver el cambio progresivo en las "colas gruesas" (o colas más pesadas) del pdf de la distribución medida que aumentan los grados de libertad hasta que finalmente se combina con el trama normal.t
Por lo tanto, aplicar una prueba z probablemente estaría bien con muestras grandes.
Abordar los problemas con mi respuesta inicial. Gracias, Glen_b por tu ayuda con el OP (los posibles nuevos errores de interpretación son completamente míos).
Dejando de lado las complejidades en las fórmulas para una muestra versus dos muestras (emparejadas y no emparejadas), la estadística t general que se centra en el caso de comparar una media muestral con una media poblacional es:
Under these conditons thet-statistic∼t(df=n−1) .
The tendency towards normality of the sampling distribution of the sample means as the sample size increases can justify assuming a normal distribution of the numerator even if the population is not normal. However, it does not influence the other two conditions (chi square distribution of the denominator and independence of the numerator from the denominator).
But not all is lost, in this post it is discussed how Slutzky theorem supports the asymptotic convergence towards a normal distribution even if the chi distribution of the denominator is not met.
On the paper "A More Realistic Look at the Robustness and Type II Error Propertiesof the t Test to Departures From Population Normality" by Sawilowsky SS and Blair RC in Psychological Bulletin, 1992, Vol. 111, No. 2, 352-360, where they tested less ideal or more "real world" (less normal) distributions for power and for type I errors, the following assertions can be found: "Despite the conservative nature with regard to Type I error of the t test for some of these real distributions, there was little effect on the power levels for the variety of treatment conditions and sample sizes studied. Researchers may easily compensate for the slight loss in power by selecting a slightly larger sample size".
"The prevailing view seems to be that the independent-samples t test is reasonably robust, insofar as Type I errors are concerned, to non-Gaussian population shape so long as (a) sample sizes are equal or nearly so, (b) sample sizes are fairly large (Boneau, 1960, mentions sample sizes of 25 to 30), and (c) tests are two-tailed rather than one-tailed. Note also that when these conditions are met and differences between nominal alpha and actual alpha do occur, discrepancies are usually of a conservative rather than of a liberal nature."
The authors do stress the controversial aspects of the topic, and I look forward to working on some simulations based on the lognormal distribution as mentioned by Professor Harrell. I would also like to come up with some Monte Carlo comparisons with non-parametric methods (e.g. Mann–Whitney U test). So it's a work in progress...
SIMULATIONS:
Disclaimer: What follows is one of these exercises in "proving it myself" one way or another. The results cannot be used to make generalizations (at least not by me), but I guess I can say that these two (probably flawed) MC simulations don't seem to be too discouraging as to the use of the t test in the circumstances described.
Type I error:
Sobre el tema de los errores de tipo I, ejecuté una simulación de Monte Carlo usando la distribución Lognormal. Extrayendo lo que se considerarían muestras más grandes (n = 50 ) muchas veces desde una distribución lognormal con parámetros μ = 0 y σ= 1 , Calculé los valores t y los valores p que resultarían si tuviéramos que comparar las medias de estas muestras, todas ellas derivadas de la misma población y todas del mismo tamaño. El lognormal se eligió en función de los comentarios y el marcado sesgo de la distribución a la derecha:
Establecer un nivel de significación de5 % la tasa de error real tipo I habría sido 4.5 % , No está mal...
De hecho, la gráfica de la densidad de las pruebas t obtenidas parece superponerse al pdf real de la distribución t:
La parte más interesante fue mirar el "denominador" de la prueba t, la parte que se suponía que debía seguir una distribución de chi-cuadrado:
Aquí estamos usando la desviación estándar común, como en esta entrada de Wikipedia :
Y, sorprendentemente (o no), la trama era extremadamente diferente al pdf chi-cuadrado superpuesto:
Error tipo II y potencia:
La distribución de la presión arterial es posible log-normal , lo cual es extremadamente útil para establecer un escenario sintético en el que los grupos de comparación están separados en valores promedio por una distancia de relevancia clínica, por ejemplo, en un estudio clínico que prueba el efecto de la presión arterial fármaco centrado en la presión arterial diastólica, un efecto significativo podría considerarse una caída promedio de10 mmHg (un SD de aproximadamente 9 9 mmHg fue elegido):
Ejecutar pruebas t de comparación en una simulación Monte Carlo similar a la de los errores de tipo I entre estos grupos ficticios, y con un nivel significativo de5 % terminamos con 0,024 % errores tipo II, y un poder de solo 99 % .
El codigo esta aqui .
fuente