Antecedentes: estoy dando una presentación a mis colegas en el trabajo sobre la prueba de hipótesis, y entiendo bien la mayoría de ellos, pero hay un aspecto que me estoy haciendo un nudo tratando de entender y explicar a los demás.
Esto es lo que creo que sé (¡corríjalo si está equivocado!)
- Estadísticas que serían normales si se conociera la varianza, siga una distribución si la varianza es desconocida
- CLT (Teorema del límite central): la distribución muestral de la media muestral es aproximadamente normal para suficientemente grande (podría ser , podría ser hasta para distribuciones muy sesgadas)
- La distribución puede considerarse Normal para grados de libertad
Utiliza la prueba si:
- Población normal y varianza conocida (para cualquier tamaño de muestra)
- Población normal, varianza desconocida (debido a CLT)
- poblacional, ,
Utiliza la prueba si:
- Población normal, varianza desconocida
- No se conoce la población o la varianza , pero los datos de la muestra parecen normales / pasan las pruebas, etc., por lo que se puede suponer que la población es normal
Entonces me queda con:
- Para muestras y (?), No se conoce / desconoce la población y la varianza.
Entonces mis preguntas son:
¿A qué tamaño de muestra puede suponer (donde no hay conocimiento sobre la distribución o la varianza de la población) que la distribución muestral de la media es normal (es decir, CLT ha comenzado) cuando la distribución muestral parece no normal? Sé que algunas distribuciones necesitan , pero algunos recursos parecen decir que use la prueba siempre que ...
Para los casos de los que no estoy seguro, supongo que miro los datos para ver si hay normalidad. Ahora, si los datos de la muestra parecen normales, ¿uso la prueba (ya que supongo que la población es normal y desde )?
¿Qué pasa con los datos de muestra para casos de los que no estoy seguro? ¿Hay alguna circunstancia en la que todavía use una prueba o una prueba o siempre busque transformar / usar pruebas no paramétricas? Sé que, debido a CLT, a algún valor de la distribución muestral de la media se aproximará a la normal, pero los datos de la muestra no me dirán cuál es ese valor de ; los datos de la muestra podrían no ser normales, mientras que la media de la muestra sigue una normal / . ¿Hay casos en los que estaría transformando / utilizando una prueba no paramétrica cuando, de hecho, la distribución muestral de la media era normal / pero no podía decirlo?
Respuestas:
@AdamO tiene razón, simplemente siempre usa la pruebat si no conoce la desviación estándar de la población a priori. No tiene que preocuparse por cuándo cambiar a la prueba z , porque la distribución t 'cambia' por usted. Más específicamente, el t -Distribución converge a la normal, por lo que es la correcta distribución para uso en cada N .
También hay una confusión aquí sobre el significado de la línea tradicional enN=30 . Hay dos tipos de convergencia de los que habla la gente:
En cualquier caso, para responder sus preguntas de manera más explícita, si cree que sus datos brutos (dentro del grupo) no se distribuyen normalmente, use la pruebaU Mann-Whitney ; si cree que sus datos se distribuyen normalmente, pero no conoce la SD a priori, use la prueba t ; y si cree que sus datos se distribuyen normalmente y conoce la SD a priori, use la prueba z .
Puede ayudarlo leer la respuesta reciente de @ GregSnow aquí: Interpretación del valor p al comparar proporciones entre dos grupos pequeños en R con respecto a estos temas también.
fuente
fuente