¿Es solo la agregación de puntos de datos? ¿O es la representación de puntos de datos para diferentes elementos en un formato tabular organizado con valores de las diferentes variables? ¿Cómo es diferente de los datos sin procesar?
dataset
terminology
definition
ankit
fuente
fuente
Respuestas:
En mi experiencia, "conjunto de datos" (o "conjunto de datos") es un término informal que se refiere a una recopilación de datos. En general, un conjunto de datos contiene más de una variable y se refiere a un solo tema; Es probable que se trate de una sola muestra.
Un error que a menudo veo que hacen los escritores de preguntas de validación cruzada es usar "conjunto de datos" como sinónimo de "variable" o "vector".
fuente
Creo que Wikipedia hace un trabajo decente al definirlo:
Como puede ver, el término es algo vago.
fuente
Creo que es posible que necesite definir un punto de datos antes de poder definir un conjunto de datos : ¿por qué es un elemento primitivo y no necesita definición, pero no al revés?
Al menos dos definiciones tienen sentido para mí:
Una o más observaciones (casos, registros, filas) para una o más variables (campos, columnas).
Lo que sea almacenado como datos dentro de un archivo legible por un programa de elección.
El diseño tabular es común pero no creo que sea parte de ninguna definición; cómo se almacenan los datos puede ser prácticamente importante, naturalmente.
PD: La palabra "formato" está tan sobrecargada que para mí es mejor evitarla a menos que se especifique sin ambigüedades. Lo he visto usado para
Texto general o específico o formato de archivo binario
Estructura de datos, p. Ej., Tabular u otro
Almacenamiento de datos o tipos de variables, por ejemplo, bit, entero, real, carácter
Presentación de control de formato de visualización, por ejemplo, detalles sobre el número de decimales; visualización decimal, hexadecimal o binaria.
fuente
Ya hay algunas buenas respuestas aquí y no creo que pueda profundizar más que Nick Cox o Franck Dernoncourt en el tema de si "conjunto de datos" se refiere a la recopilación conceptual de datos relacionados, o al arreglo particular de esos datos, por ejemplo, en una tabla / matriz o un archivo legible por computadora. El extracto de Franck menciona casos extremos como datos recopilados continuamente, o datos distribuidos en varias tablas, que vale la pena tener en cuenta si asumía que iba a haber una definición simple. (No todo el software de estadísticas puede manejarlo, pero es muy fácil imaginar un caso en el que los datos se almacenan en una base de datos relacional con varias tablas. ¿Es toda la base de datos un solo "conjunto de datos"?)
Sin embargo, una cosa que agregaré es que los conjuntos de datos generalmente no son conjuntos, en el sentido matemático. Sensu stricto ya sea que un conjunto contenga un objeto o no, pero no puede contener más de una copia de ese objeto. Si lanzo un dado ocho veces y obtengo un puntaje de 1, 4, 3, 5, 5, 4, 6, 4, entonces el conjunto de puntajes obtenidos es solo {1, 3, 4, 5, 6}. Tenga en cuenta que los elementos podrían estar en cualquier orden, los acabo de escribir en valor ascendente, pero el conjunto {5, 4, 1, 6, 3} es matemáticamente igual a él, por ejemplo. ¡Sin embargo, esto no es lo que generalmente queremos decir con un conjunto de datos!
Pero los vectores son solo para registrar una variable; para varias, puede ser más conveniente usar una matriz para tabular con el orden preservado. Para situaciones más sofisticadas, como medir una propiedad de una cuadrícula tridimensional de vóxeles con el tiempo, incluso puede pasar a organizar los datos en un tensor (consulte, por ejemplo, esta pregunta ).
Pero tenga en cuenta que conceptualmente un multiset puede ser suficiente en la mayoría de las situaciones simples, incluso si es inconveniente para fines prácticos. Si lancé una moneda al mismo tiempo que tiraba el dado y quería registrar los dos resultados juntos, entonces podría usar un conjunto múltiple como {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} en lugar de una matriz. Un conjunto ordinario no será suficiente, ya que no contaría la multiplicidad de (4, H), por ejemplo.
fuente