¿Qué significa exactamente 'agrupar datos'?

16

Pensé que 'agrupar datos' simplemente significaba combinar datos que antes se dividían en categorías ... esencialmente, ignorar las categorías y hacer que el conjunto de datos sea un 'grupo' gigante de datos. Supongo que esta es una pregunta más sobre la terminología que la aplicación de estadísticas.

Por ejemplo: quiero comparar 2 sitios, y dentro de cada sitio tengo dos tipos de año (bueno y malo). Si quiero comparar los 2 sitios 'en general' (es decir, ignorando los tipos de año), ¿es correcto decir que estoy agrupando los datos dentro de cada sitio? Además de eso, dado que varios años de datos comprenden los tipos de años buenos y malos, ¿es correcto decir que estoy agrupando los datos entre años para lograr el conjunto de datos de "año bueno" y "año malo" dentro de cada sitio? ¡Gracias por tu ayuda! Gatito

Gatito
fuente

Respuestas:

13

Sí, tus ejemplos son correctos.

El Oxford English Dictionary define pool como:

piscina, v.

(puːl)

1.1 trans. Lanzarse a una acción o fondo común para ser distribuido de acuerdo con el acuerdo; combinar (capital o intereses) para el beneficio común; Especificaciones. de compañías ferroviarias competidoras, etc .: para compartir o dividir (tráfico o recibos).

Otro ejemplo sería:

Mide los niveles sanguíneos de sustancia X en hombres y mujeres. No ve diferencias estadísticas entre los dos grupos, por lo que agrupa los datos juntos , ignorando el sexo del sujeto experimental.

Si es estadísticamente correcto hacerlo depende mucho del caso específico.

nico
fuente
12

La agrupación puede referirse a la combinación de datos, pero también puede referirse a la combinación de información en lugar de a los datos sin procesar. Uno de los usos más comunes de la agrupación es estimar una varianza. Si creemos que 2 poblaciones tienen la misma varianza, pero no necesariamente la misma media, entonces podemos calcular las 2 estimaciones de la varianza a partir de muestras de los 2 grupos, luego agruparlas (tomar un promedio ponderado) para obtener una estimación única de La varianza común. No calculamos una sola estimación de la varianza a partir de los datos combinados porque si las medias no son iguales, eso inflará la estimación de la varianza.

Greg Snow
fuente
Gracias @ Greg. Para aclarar (porque estoy tratando de combinar las variaciones también de la literatura), lo que está diciendo es que para obtener una variación 'promedio' para múltiples poblaciones, ¿puedo tomar una media ponderada de las variaciones calculadas? ¿Cómo ponderaría esas variaciones? ¿No es cada población = 1?
Mog
Si los tamaños de muestra son iguales, entonces el promedio simple tiende a funcionar. Generalmente le damos a cada punto de datos el mismo peso, la fórmula estándar es multiplicar cada varianza por los grados de libertad (o el número en el denominador para ese grupo, n-1), luego sumar todas las piezas, luego dividir por la suma de los grados de libertad (todos los n_i-1).
Greg Snow