Pregunta sobre el supuesto de normalidad de la prueba t

9

Para las pruebas t, según la mayoría de los textos, se supone que los datos de la población se distribuyen normalmente. No veo por qué es eso. ¿Una prueba t solo requiere que la distribución muestral de las medias muestrales se distribuya normalmente y no la población?

Si es el caso de que la prueba t solo requiere finalmente normalidad en la distribución de muestreo, la población puede verse como cualquier distribución, ¿verdad? Siempre que haya un tamaño de muestra razonable. ¿No es eso lo que dice el teorema del límite central?

(Me refiero aquí a pruebas t de una muestra o muestras independientes)

Peter Nash
fuente
1
Bueno, la media muestral como variable aleatoria solo puede ser normal si las partes individuales también son normales. Pero tiene razón: la prueba t es asintóticamente no paramétrica (sin distribución normal), pero las variaciones dentro del grupo (en la situación de dos muestras) deben ser similares y existentes.
Michael M
Al ser similares las variaciones dentro del grupo, ¿se refiere al supuesto de la homogeneidad de la variación? Si es así, la prueba t de Welch es correcta para esto, ¿correcto?
Peter Nash
Sí exactamente. Si los grados de libertad corregidos de Welch llegan al infinito, entonces también su procedimiento sería libre de distribución (sin embargo, la cita es necesaria ...).
Michael M

Respuestas:

9

Para las pruebas t, según la mayoría de los textos, se supone que los datos de la población se distribuyen normalmente. No veo por qué es eso. ¿Una prueba t solo requiere que la distribución muestral de las medias muestrales se distribuya normalmente y no la población?

El estadístico t consiste en una relación de dos cantidades, ambas variables aleatorias. No solo consiste en un numerador.

Para que la estadística t tenga la distribución t, no solo necesita que la media muestral tenga una distribución normal. También necesitas:

  • que la en el denominador sea tal que *ss2/σ2χd2

  • que el numerador y el denominador sean independientes.

* (el valor de depende de qué prueba, en la muestra tenemos )dtd=n1

Para que esas tres cosas sean realmente ciertas, necesita que los datos originales se distribuyan normalmente.

Si es el caso de que la prueba t solo requiere finalmente normalidad en la distribución de muestreo, la población puede verse como cualquier distribución, ¿verdad?

Tomemos iid como se da por un momento. Para que el CLT mantenga la población tiene que ajustarse a las condiciones ... - la población debe tener una distribución a la que se aplica el CLT. Entonces no, ya que hay distribuciones de población para las cuales el CLT no se aplica.

Siempre que haya un tamaño de muestra razonable. ¿No es eso lo que dice el teorema del límite central?

No, el CLT en realidad no dice una palabra sobre "tamaño de muestra razonable".

En realidad, no dice nada sobre lo que sucede en cualquier tamaño de muestra finito.

Estoy pensando en una distribución específica en este momento. Es uno al que ciertamente se aplica el CLT . Pero en , la distribución de la media muestral es claramente no normal. Sin embargo, dudo que alguna muestra en la historia de la humanidad haya tenido tantos valores en ella. Entonces, fuera de la tautología, ¿qué significa ' razonable '?n=1015n


Entonces tienes problemas gemelos:

R. El efecto que las personas suelen atribuir a la CLT (el enfoque cada vez más cercano a la normalidad de las distribuciones de las medias de muestra a tamaños de muestra pequeños / moderados) no se menciona realmente en la CLT **.

B. "Algo no muy lejos de lo normal en el numerador" no es suficiente para que la estadística tenga una distribución t

** (Algo así como el teorema de Berry-Esseen te hace ver más como lo que la gente está viendo cuando observan el efecto de aumentar el tamaño de la muestra en la distribución de las medias muestrales).


El CLT y el teorema de Slutsky juntos le dan (siempre y cuando se cumplan todos sus supuestos) que, como , la distribución del estadístico t se aproxima a la normal estándar. No dice si un determinado finito podría ser suficiente para algún propósito.nn

Glen_b -Reinstate a Monica
fuente
1
Para que esas tres cosas [normalidad de la media de la muestra, chi-cuadrado de la varianza de la muestra e independencia de las dos] sean realmente verdaderas, necesita que los datos originales se distribuyan normalmente. ¿Estás diciendo que solo lo Normal tiene esas tres propiedades? No estoy afirmando que la declaración sea falsa, solo curiosidad si eso es lo que estás diciendo.
Andrew M
2
@AndrewM Ciertamente, solo lo normal tiene los tres juntos. Además, el primero o el tercero por sí solos son suficientes para implicar lo normal: el tercero caracteriza lo normal ( Lukacs, 1942 ), y para números finitos de variables aleatorias independientes, solo lo normal tiene lo primero ( teorema de descomposición de Cramér ). Es concebible que haya otra forma de obtener el segundo, pero no conozco ninguna.
Glen_b: reinstala a Monica
@AndrewM con respecto al segundo, el trabajo de Ahsanullah (1987, 1989) puede ser relevante.
Glen_b -Reinstale a Monica
1
Gracias por esas referencias @Glen_b! No estaba al tanto del resultado de Lukacs, y el teorema de descomposición de Cramer como se indicó es bastante más fuerte que la versión que tenía en mi cabeza ( Normal iff Normal, para todas las matrices ). XAXA
Andrew M
@AndrewM La diferencia es que el resultado que cita no depende de la independencia, mientras que el resultado de Cramer sí. Ambos son útiles en su lugar.
Glen_b -Reinstale a Monica