Evaluaciones de "aproximadamente normal" para las pruebas t

Estoy probando la igualdad de medios usando la prueba t de Welch. La distribución subyacente está lejos de ser normal (más sesgada que el ejemplo en una discusión relacionada aquí ). Puedo obtener más datos, pero me gustaría conocer alguna forma de determinar en qué medida hacerlo.

¿Existe una buena heurística para evaluar que la distribución de la muestra es aceptable? ¿Qué desviaciones de la normalidad son más preocupantes?
¿Existen otros enfoques, por ejemplo, confiar en un intervalo de confianza de arranque para la estadística de muestra, que tendrían más sentido?

normal-distribution t-test bootstrap central-limit-theorem approximation Cohoz
fuente

Esta es una gran pregunta. Además de ¿Es la prueba de normalidad "esencialmente inútil"? (ya vinculado), dos preguntas más relacionadas son ¿Cómo elegir entre la prueba t o la prueba no paramétrica, por ejemplo, Wilcoxon en muestras pequeñas? y prueba T para no normal cuando N> 50? Una buena respuesta a esta pregunta podría ser valiosa para los lectores de estas dos preguntas relacionadas.

Silverfish

Hasta donde sé, no hay ninguna forma de principio para determinar cuántos datos necesita para que la distribución sea "lo suficientemente normal". Esto se debe a que "lo suficientemente normal" es difícil de definir y dependería de cuán no normal sea la distribución subyacente, además de la forma particular en la que se aleja de la normalidad. Si tiene datos serios no normales, simplemente usaría una prueba no paramétrica. La desventaja es que no podrá obtener intervalos de confianza que sean más útiles que las pruebas de hipótesis solitarias.

dsaxton

Estoy de acuerdo en que "lo suficientemente normal" es difícil de definir, pero cada profesional debe hacer la evaluación antes de razonar sobre los datos empíricos, por lo que me sorprende la poca discusión que he podido descubrir (tal vez estoy buscando en los lugares equivocados) . Para los casos de uso que tengo en mente aquí (que parecen bastante comunes), las pruebas no paramétricas son insatisfactorias en comparación con la recopilación de más datos para garantizar una distribución de muestreo "lo suficientemente normal".

cohoz

Como la prueba t asume la normalidad, y sus distribuciones subyacentes no son normales, no puede haber una forma de principio de determinar que la distribución de la muestra es aceptable. Sin embargo, a medida que el tamaño de la muestra se vuelve "grande", el Teorema del límite central entra en acción y puede usar una prueba z de muestra grande, que esencialmente le dará la misma respuesta que una prueba t porque la t se acerca a la distribución normal con Muestras grandes.

Los libros / cursos de estadísticas a menudo implican que con un tamaño de muestra de 25 o 30 CLT entra en juego de una manera útil. Sin embargo, mi experiencia ha sido que incluso con tamaños de muestra en los cientos de muestras grandes, las pruebas z aún pueden ser bastante pobres (por ejemplo, con datos de recuento).

En mi opinión, una prueba de permutación se adapta bien a su problema. Debe tener una potencia igual o mejor que las pruebas no paramétricas enlatadas (por ejemplo, Mann-Whitney) y no tiene que preocuparse por el problema de la normalidad. Y, son divertidos de escribir.

Tim
fuente

Evaluaciones de "aproximadamente normal" para las pruebas t

Respuestas: