He leído / escuchado muchas veces que el tamaño de la muestra de al menos 30 unidades se considera como "muestra grande" (los supuestos de normalidad de los medios generalmente se mantienen aproximadamente debido al CLT, ...). Por lo tanto, en mis experimentos, generalmente genero muestras de 30 unidades. ¿Puede darme alguna referencia que debería citarse cuando se usa el tamaño de muestra 30?
41
Respuestas:
La elección de n = 30 para un límite entre muestras pequeñas y grandes es solo una regla general. Hay una gran cantidad de libros que citan (alrededor) de este valor, por ejemplo, la Probabilidad e Inferencia estadística de Hogg y Tanis (7e) dice "mayor que 25 o 30".
Dicho esto, la historia que me contaron fue que la única razón por la que 30 se consideraba un buen límite era porque hacía que las bonitas tablas t de Student en la parte posterior de los libros de texto encajaran bien en una página. Eso, y los valores críticos (entre la t de Student y la Normal) solo están desactivados en aproximadamente hasta 0.25, de todos modos, desde df = 30 a df = infinito. Para el cálculo manual, la diferencia realmente no importaba.
Hoy en día es fácil calcular valores críticos para todo tipo de cosas con 15 decimales. Además de eso, tenemos métodos de remuestreo y permutación para los cuales ni siquiera estamos restringidos a distribuciones de población paramétricas.
En la práctica, nunca confío en n = 30. Trace los datos. Superponga una distribución normal, si lo desea. Evalúe visualmente si una aproximación normal es apropiada (y pregunte si realmente es necesaria una aproximación). Si la generación de muestras para investigación y una aproximación es obligatoria, genere un tamaño de muestra suficiente para que la aproximación sea lo más cercana posible (o lo más cerca posible computacionalmente).
fuente
En realidad, el "número mágico" 30 es una falacia. Ver el encantador artículo de Jacob Cohen, Cosas que he aprendido (hasta ahora) (Am. Psych. Diciembre 1990 45 # 12, pp 1304-1312) . Este mito es su primer ejemplo de cómo "algunas cosas que aprendes no son así".
fuente
En mi opinión, todo depende de para qué quieres usar tu muestra. Dos ejemplos "tontos" para ilustrar lo que quiero decir: si necesita estimar una media, 30 observaciones es más que suficiente. Si necesita estimar una regresión lineal con 100 predictores, 30 observaciones no serán lo suficientemente cercanas.
fuente
En términos más generales, el CLT necesita esencialmente dos pilares para sostener:
(Ambas condiciones pueden estar algo debilitadas, pero las diferencias son en gran medida de naturaleza teórica)
fuente