¿Cuál es la definición de "Big Data"?

23

¿Hay uno?

Todas las definiciones que puedo encontrar describen el tamaño, la complejidad / variedad o la velocidad de los datos.

La definición de Wikipedia es la única que he encontrado con un número real

Los grandes tamaños de datos son un objetivo en constante movimiento, a partir de 2012, que van desde unas pocas docenas de terabytes hasta muchos petabytes de datos en un solo conjunto de datos.

Sin embargo, esto aparentemente contradice la definición de MIKE2.0 , a la que se hace referencia en el siguiente párrafo, que indica que los datos "grandes" pueden ser pequeños y que 100.000 sensores en una aeronave que crean solo 3 GB de datos podrían considerarse grandes.

IBM a pesar de decir que:

Big data es más simple que una cuestión de tamaño.

han enfatizado el tamaño en su definición .

O'Reilly también ha estresado "volume, velocity and variety" . Aunque se explica bien, y con más profundidad, la definición parece ser una repetición de los demás, o viceversa, por supuesto.

Creo que el título de un artículo de Computer Weekly resume una cantidad bastante buena de artículos "¿Qué son los grandes datos y cómo se pueden utilizar para obtener una ventaja competitiva?" .

Pero ZDNet gana con lo siguiente de 2012 :

"Big Data" es una frase clave que ha surgido del nicho de computación de alto rendimiento del mercado de TI ... Si uno se sienta a través de las presentaciones de diez proveedores de tecnología, es probable que aparezcan quince definiciones diferentes. Cada definición, por supuesto, tiende a respaldar la necesidad de los productos y servicios de ese proveedor. Imagina eso.

Básicamente, "big data" es "grande" de alguna forma o forma.

¿Qué es "grande"? ¿Es cuantificable en el momento actual?

Si "grande" no es cuantificable, ¿existe una definición que no se base únicamente en generalidades?

Ben
fuente
77
"¿Qué es" grande "? ¿Es cuantificable en el momento actual?". Seguro. Big es más de lo que puedes manejar en este momento;)
Oded
1
@Oded, deberías definir "manejar" y luego :-).
Ben
14
Si tiene que preguntar, el suyo no es lo suficientemente grande como para contarlo. ;)
FrustratedWithFormsDesigner
@Ben - Eso se define de manera diferente para cada individuo y sistema ...
Falleció el
44
"Grande" probablemente se refiere a "difícil de manejar". Lo suficiente como para no caber en la memoria, llenar el disco, tener tiempo para transferir través de la red, etc.

Respuestas:

42

No hay uno; Es una palabra de moda.

Sin embargo, el delineador es que sus datos están más allá de las capacidades de los sistemas tradicionales. Los datos son demasiado grandes para almacenarlos en el disco más grande, las consultas tardan mucho tiempo sin una optimización especial, la red o el disco no pueden admitir el flujo de tráfico entrante, una vista de datos antigua no manejará la visualización de la forma / tamaño / amplitud de datos ...

Básicamente, que sus datos están más allá de un punto de inflexión mal definido donde "simplemente agregue más hardware" no va a cortarlo.

Telastyn
fuente
+1 y, además, lo que cuenta como "grande" siempre está cambiando a medida que un mejor hardware se pone al día y las herramientas previamente personalizadas se vuelven maduras, estandarizadas y vendidas comercialmente para hacer frente a tales problemas.
FrustratedWithFormsDesigner
En otras palabras: no, no tengo idea, no, no :-).
Ben
Además, antes de que el big data se convirtiera en algo importante, muchas empresas e institutos de investigación ya hacían cosas de big data. Solo ahora, con todos los desafíos de Big Data en las redes sociales / en línea, se ha vuelto más corriente.
Paul Hiemstra
2

Como se señala en el enlace de Oracle (comentario de Immad Careem) oracle.com/us/technologies/big-data/index.html. Big Data es todo lo que no son datos relacionales almacenados en un RDBMS. Pocos años antes de la exageración, solo eran "muchos datos". Ahora creció y fue promovido por los especialistas en marketing para que fuera algún tipo de información especial.

Hay varias razones secundarias (además del marketing) para considerar Big Data como algo real.

  1. Invención de Map-Reduce
  2. Tecnologías NOSQL como Hadoop
  3. Alguna evolución en RDBMS tradicional influenciada por la demanda de tipos de datos no estructurados
  4. Posiblemente algunas tecnologías de hardware ofrecidas por EMC2 Corporation

fuente
2
¿"Invención de Map-Reduce"? Tienes que estar bromeando.
Telastyn
1
"Todo lo que no son datos relacionales" es una definición que solo podría provenir de alguien tan centrado en RDB como Oracle (y está mal). Según esa definición, cada índice SolR, cada base de datos MongoDB y cada DB Berkley son "grandes datos". Y eso es simplemente estúpido.
Joachim Sauer
0

Usando la respuesta de Doug Laney como punto de partida, realizamos ingeniería inversa de una lista de definiciones de Big Data, ahora más de 30 y avanzando con fuerza. Nuestra lista de definiciones para "Big Data" se encuentra aquí .

Damos la bienvenida a correcciones, entradas, gráficos, etc.

Opentracker BData
fuente
-1

Es genial ver a O'Reilly y otros finalmente aferrarse a los 3V de Big Data de Gartner que presentamos por primera vez hace 11 años. Como referencia, aquí está la pieza original que escribí en 2001: http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/ .

La definición recientemente actualizada de Gartner también reconoce el aspecto del valor: "Los Big Data son activos de información con volúmenes, velocidades y / o variedad que requieren formas innovadoras de procesamiento de información para mejorar el descubrimiento de información, la toma de decisiones y la automatización de procesos".

También hemos desarrollado un método para cuantificar la magnitud de los datos a lo largo de los tres vectores que son prescriptivos en términos de adopción de tecnología. Sin embargo, no puedo compartirlo públicamente.

Doug Laney
fuente