¿Qué se entiende exactamente por un "conjunto de datos"?

10

¿Es solo la agregación de puntos de datos? ¿O es la representación de puntos de datos para diferentes elementos en un formato tabular organizado con valores de las diferentes variables? ¿Cómo es diferente de los datos sin procesar?

ankit
fuente
¿Qué quiere decir con "punto de datos"? ¿Espera que sea al menos 2D? Una serie temporal o un conjunto de puntajes de exámenes pueden ser un conjunto de datos; como mínimo, esas podrían ser series en una variable, posiblemente sin etiquetas de fila. Según la respuesta de @FranckDernoncourt
smci
1
Realmente creo que es una recopilación de datos. Esa es ciertamente la forma en que uso el término. No creo que haya demasiado en esto. Si los datos son "en bruto" o preprocesados ​​o limpiados, etc., es ortogonal.
gung - Restablecer Monica

Respuestas:

9

En mi experiencia, "conjunto de datos" (o "conjunto de datos") es un término informal que se refiere a una recopilación de datos. En general, un conjunto de datos contiene más de una variable y se refiere a un solo tema; Es probable que se trate de una sola muestra.

Un error que a menudo veo que hacen los escritores de preguntas de validación cruzada es usar "conjunto de datos" como sinónimo de "variable" o "vector".

Kodiólogo
fuente
3
Acordado en conjunto de datos vs variable o vector. No me hagas comenzar con "un dato", como en "Tengo un dato". Por el contrario, "Tengo un conjunto de datos" es una forma maravillosa de no irritar de ninguna manera, ya sea irritando a aquellos que insisten en que los datos son plurales o irritantes a aquellos que consideran esa insistencia como pedante, si lo piensan en absoluto.
Nick Cox
3
@NickCox En las guerras gramaticales sobre "datos", estoy en la facción menos popular, que afirma que "datos" es un sustantivo en masa.
Kodiólogo
3
Sospecho que es una mayoría ahora y creo firmemente que está ganando popularidad.
Nick Cox
8

Creo que Wikipedia hace un trabajo decente al definirlo:

Lo más común es que un conjunto de datos corresponda al contenido de una sola tabla de base de datos, o una única matriz de datos estadísticos, donde cada columna de la tabla representa una variable particular, y cada fila corresponde a un miembro dado del conjunto de datos en cuestión. El conjunto de datos enumera valores para cada una de las variables, como la altura y el peso de un objeto, para cada miembro del conjunto de datos. Cada valor se conoce como dato. El conjunto de datos puede comprender datos para uno o más miembros, correspondientes al número de filas.

El término conjunto de datos también se puede usar de manera más flexible, para referirse a los datos en una colección de tablas estrechamente relacionadas, correspondientes a un experimento o evento particular. Un ejemplo de este tipo son los conjuntos de datos recopilados por las agencias espaciales que realizan experimentos con instrumentos a bordo de sondas espaciales.

En la disciplina de datos abiertos, el conjunto de datos es la unidad para medir la información publicada en un repositorio público de datos abiertos. El portal europeo de datos abiertos agrega más de medio millón de conjuntos de datos. En este campo se han propuesto otras definiciones, pero actualmente no hay una oficial. Algunos otros problemas (fuentes de datos en tiempo real, conjuntos de datos no relacionales, etc.) aumentan la dificultad para llegar a un consenso al respecto.

Como puede ver, el término es algo vago.

Franck Dernoncourt
fuente
Y en un entorno de visión por computadora, un conjunto de datos podría ser simplemente una colección de imágenes naturales y sus etiquetas o anotaciones.
Sycorax dice Reinstate Monica el
¿Qué se entiende por "base de datos *?"
Ankit
@ankit El significado tradicional de CS en.wikipedia.org/wiki/Database
Franck Dernoncourt
@Sycorax Sí, supongo que podríamos considerar una imagen (o alguna otra señal) como un dato de blob en la base de datos.
Franck Dernoncourt el
7

Creo que es posible que necesite definir un punto de datos antes de poder definir un conjunto de datos : ¿por qué es un elemento primitivo y no necesita definición, pero no al revés?

Al menos dos definiciones tienen sentido para mí:

  1. Una o más observaciones (casos, registros, filas) para una o más variables (campos, columnas).

  2. Lo que sea almacenado como datos dentro de un archivo legible por un programa de elección.

El diseño tabular es común pero no creo que sea parte de ninguna definición; cómo se almacenan los datos puede ser prácticamente importante, naturalmente.

PD: La palabra "formato" está tan sobrecargada que para mí es mejor evitarla a menos que se especifique sin ambigüedades. Lo he visto usado para

  1. Texto general o específico o formato de archivo binario

  2. Estructura de datos, p. Ej., Tabular u otro

  3. Almacenamiento de datos o tipos de variables, por ejemplo, bit, entero, real, carácter

  4. Presentación de control de formato de visualización, por ejemplo, detalles sobre el número de decimales; visualización decimal, hexadecimal o binaria.

Nick Cox
fuente
6

Ya hay algunas buenas respuestas aquí y no creo que pueda profundizar más que Nick Cox o Franck Dernoncourt en el tema de si "conjunto de datos" se refiere a la recopilación conceptual de datos relacionados, o al arreglo particular de esos datos, por ejemplo, en una tabla / matriz o un archivo legible por computadora. El extracto de Franck menciona casos extremos como datos recopilados continuamente, o datos distribuidos en varias tablas, que vale la pena tener en cuenta si asumía que iba a haber una definición simple. (No todo el software de estadísticas puede manejarlo, pero es muy fácil imaginar un caso en el que los datos se almacenan en una base de datos relacional con varias tablas. ¿Es toda la base de datos un solo "conjunto de datos"?)

Sin embargo, una cosa que agregaré es que los conjuntos de datos generalmente no son conjuntos, en el sentido matemático. Sensu stricto ya sea que un conjunto contenga un objeto o no, pero no puede contener más de una copia de ese objeto. Si lanzo un dado ocho veces y obtengo un puntaje de 1, 4, 3, 5, 5, 4, 6, 4, entonces el conjunto de puntajes obtenidos es solo {1, 3, 4, 5, 6}. Tenga en cuenta que los elementos podrían estar en cualquier orden, los acabo de escribir en valor ascendente, pero el conjunto {5, 4, 1, 6, 3} es matemáticamente igual a él, por ejemplo. ¡Sin embargo, esto no es lo que generalmente queremos decir con un conjunto de datos!

X¯=1norteyo=1norteXyoX1X2

Pero los vectores son solo para registrar una variable; para varias, puede ser más conveniente usar una matriz para tabular con el orden preservado. Para situaciones más sofisticadas, como medir una propiedad de una cuadrícula tridimensional de vóxeles con el tiempo, incluso puede pasar a organizar los datos en un tensor (consulte, por ejemplo, esta pregunta ).

Pero tenga en cuenta que conceptualmente un multiset puede ser suficiente en la mayoría de las situaciones simples, incluso si es inconveniente para fines prácticos. Si lancé una moneda al mismo tiempo que tiraba el dado y quería registrar los dos resultados juntos, entonces podría usar un conjunto múltiple como {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} en lugar de una matriz. Un conjunto ordinario no será suficiente, ya que no contaría la multiplicidad de (4, H), por ejemplo.

Lepisma
fuente
1
Podría comprar la idea de que un conjunto de datos es un conjunto de observaciones con solo la arruga de que podría necesitar sus identificadores para distinguirlos. Pero tienes razón en que el significado aquí está a cierta distancia de eso en la teoría de conjuntos. Subraye, como insinúa aquí, que el orden de las observaciones es a menudo crucial y a menudo, pero no siempre, estará dado por un tiempo u otra (s) variable (s) de orden.
Nick Cox
@NickCox (+1) De hecho, lo que aún no he encontrado el tiempo, o más aún, para expresar es que las observaciones a menudo vienen con un identificador, a veces temporal, a veces basado en la ubicación, a veces ambos. Cuando codificamos los datos en un vector, matriz o tensor, eso a menudo proporciona directamente la estructura que queremos y un identificador explícito (como un índice codificado) puede volverse innecesario, particularmente si lo único que importa es el orden o la posición relativa. Sin duda hay una terminología correcta para todo esto.
Silverfish
No tengo ningún problema con decir que el orden no importa. No tiene una sola variable. El orden es importante cuando tiene valores X emparejados con, por ejemplo, el tiempo de medición. Pero entonces, realmente podemos pensar en los puntos como multidimensionales, y el orden de un conjunto de datos multidimensionales no importa nuevamente. Tampoco tengo ningún problema con pensar que existe en realidad, o un identificador implícito, que hace que dos 5 sean únicos.
gung - Restablece a Monica
@gung Estaba pensando en conjuntos de datos en los que el tiempo o el orden en serie están implícitos. Yo diría que fue una mala práctica, y ahora innecesaria, no tener una variable de orden explícita, pero la falta de dicha variable de orden no descalifica para ser un conjunto de datos. De hecho, en la década de 1970, procesaba rutinariamente series espaciales con identificador implícito porque mis propios programas Fortran hacían innecesaria la labor (no trivial) de ingresar una.
Nick Cox
Eso me parece bien, @ NickCox. Yo diría que la variable de orden es implícita, en ese caso, pero en cierto sentido sigue ahí.
gung - Restablece a Monica