¿Qué es exactamente Big Data?

44

En varias ocasiones me han hecho la pregunta:

¿Qué es Big-Data?

Tanto por los estudiantes como por mis familiares que están recogiendo el rumor sobre las estadísticas y el aprendizaje automático.

Encontré esta publicación de CV . Y siento que estoy de acuerdo con la única respuesta allí.

La página de Wikipedia también tiene algunos comentarios, pero no estoy seguro si realmente estoy de acuerdo con todo lo que hay allí.

EDITAR: (Siento que la página de Wikipedia no explica los métodos para abordar esto y el paradigma que menciono a continuación) .

Hace poco asistí a una conferencia de Emmanuel Candès , donde presentó el paradigma Big-Data como

Recopile datos primero Haga preguntas más tarde

Esta es la principal diferencia de la investigación basada en hipótesis, en la que primero se formula una hipótesis y luego se recopilan datos para decir algo al respecto.

Se ocupó mucho de los problemas de cuantificación de la fiabilidad de las hipótesis generadas por la indagación de datos. Lo principal que saqué de su conferencia fue que realmente necesitamos comenzar a controlar el FDR y presentó el método de imitación para hacerlo.

Creo que CV debería tener una pregunta sobre qué es Big-Data y cuál es su definición. Siento que hay tantas "definiciones" diferentes , que es difícil comprender realmente lo que es, o explicarlo a otros, si no hay un consenso general sobre en qué consiste.

Siento que la "definición / paradigma / descripción" proporcionada por Candès es lo más cercano a lo que estoy de acuerdo, ¿cuáles son sus pensamientos?

EDIT2: Creo que la respuesta debería proporcionar algo más que una explicación de los datos en sí. Debe ser una combinación de datos / métodos / paradigma.

EDITAR3: Siento que esta entrevista con Michael Jordan también podría agregar algo a la mesa.

EDITAR4: Decidí elegir la respuesta más votada como la correcta. Aunque creo que todas las respuestas agregan algo a la discusión y personalmente siento que se trata más de un paradigma de cómo generamos hipótesis y trabajamos con datos. Espero que esta pregunta sirva como un conjunto de referencias para aquellos que buscan lo que es Big-Data. Espero que la página de Wikipedia se cambie para enfatizar aún más el problema de comparación múltiple y el control de FDR.

Gumeo
fuente
55
"Big data es como el sexo adolescente: todo el mundo habla de eso, nadie sabe realmente cómo hacerlo, todos piensan que todos lo están haciendo, por lo que todos afirman que lo están haciendo". Simon Matthews
Alexander Lutsenko
44
Esta cita ya no es válida. La gente está haciendo muchas obras extraordinarias recientemente. Si observa las competencias en Kaggle, las compañías están mejorando sus negocios y están ganando mucho dinero al gastar no mucho dinero. Otros ejemplos para las aplicaciones de Big Data se pueden encontrar aquí: linkedin.com/pulse/…
Metariat
55
@XuanQuangDO, estoy de acuerdo. No te tomes esta cita en serio.
Alexander Lutsenko
66
@XuanQuangDO: bueno, estoy seguro de que algunos adolescentes están teniendo relaciones sexuales extraordinarias, pero eso no cambia el hecho de que también hay un montón de torpezas incompetentes o equivocadas, que la gente se burlará sin piedad ;-)
Steve Jessop

Respuestas:

54

Tuve el placer de asistir a una conferencia dada por el Dr. Hadley Wickham, de la fama RStudio. Lo definió de tal manera

  • Big Data: no puede caber en la memoria en una computadora:> 1 TB
  • Datos medios: se adapta a la memoria en un servidor: 10 GB - 1 TB
  • Datos pequeños: cabe en la memoria de una computadora portátil: <10 GB

Hadley también cree que la mayoría de los datos pueden al menos reducirse a problemas manejables, y que una cantidad muy pequeña es realmente big data. Denota esto como el "Big Data Mirage".

  • 90% Se puede reducir a un problema de datos pequeño / mediano con subconjunto / muestreo / resumen
  • 9% Se puede reducir a una gran cantidad de pequeños problemas de datos
  • 1% es irreductiblemente grande

Las diapositivas se pueden encontrar aquí .

Chris C
fuente
2
@ GuðmundurEinarsson, lo acabo de editar, gracias por la sugerencia.
Chris C
55
Si bien no creo que existan límites claros, creo que esta publicación es muy perspicaz. Cuando trabajaba en una empresa de SW, interactué con bastantes clientes que buscaban " soluciones de big data "; en realidad se perdieron un SODIMM de 16 GB.
usεr11852 dice Reinstate Monic
2
Con SSD de 1 TB hoy en día, el almacenamiento no volátil no está muy lejos del almacenamiento volátil en velocidad. Siento que esperaría que los grandes datos sean mayores a 1 TB, tal vez al menos 50 TB o algo así.
Mehrdad
3
Con todo respeto hacia usted y Hadley, los datos de la oferta no se refieren solo al volumen. Por lo general, los datos de la oferta se definen a través del modelo 3V y, más recientemente, del modelo 4V (propuesto por Gartner); consulte la respuesta de Dawny33 a continuación. Sin embargo, algunos expertos (incluso de Gartner) consideran otro más, y argumentan la dimensión V más importante, donde V representa el valor comercial . Por ejemplo, consulte esta publicación y esta publicación .
Aleksandr Blekh
2
@AleksandrBlekh Su comentario contiene una discusión matizada de controversia en torno a los criterios para "Big Data" entre los expertos, y algunas referencias para respaldar sus afirmaciones al respecto. Creo que deberías considerar convertirlo en una respuesta.
Silverfish
19

Un conjunto / flujo de datos se llama Big Data, si satisface las cuatro V

  • Volumen
  • Velocidad
  • Veracidad
  • Variedad

A menos que y hasta que no esté satisfecho, el conjunto de datos no se pueda denominar Big Data.

Una respuesta similar mía, como referencia.


Dicho esto, como científico de datos; Encuentro el marco Map-Reduce realmente agradable. Dividir sus datos, mapearlos y luego los resultados del paso del mapeador se reducen en un solo resultado. Encuentro este marco realmente fascinante y cómo ha beneficiado al mundo de los datos.

Y estas son algunas formas en que trato el problema de datos durante mi trabajo todos los días:

  1. Bases de datos en columnas: son una bendición para los científicos de datos. Utilizo Aws Red Shift como mi almacén de datos en columnas. Ayuda a ejecutar consultas SQL complejas y se une menos a un dolor. Lo encuentro realmente bueno, especialmente cuando mi equipo de crecimiento hace algunas preguntas realmente complejas, y no necesito decir "Sí, hice una consulta; ¡la recibiríamos en un día!"
  2. Spark y el marco de reducción de mapas: las razones se han explicado anteriormente.

Y así es como se lleva a cabo un experimento de datos:

  • Se identifica el problema a responder
  • Ahora se enumeran las posibles fuentes de datos.
  • Las tuberías están diseñadas para llevar los datos a Redshift desde bases de datos locales. Sí, Spark viene aquí. Realmente es útil durante el movimiento de datos de DB -> S3 -> Redshift.
  • Luego, las consultas y los análisis SQL se realizan en los datos en Redshift.

Sí, hay algoritmos de Big Data como hyper loglog, etc. pero no he encontrado la necesidad de usarlos.

Entonces sí. Los datos se recopilan primero antes de generar la hipótesis.

Dawny33
fuente
55
Estoy de acuerdo con estas cosas, pero creo que el término Big Data cubre algo más que los datos en sí. También son los métodos que se le aplican y el paradigma de recopilar primero los datos antes de generar hipótesis al respecto.
Gumeo
1
@ GuðmundurEinarsson Tenía prisa, así que quería darte la mejor respuesta en poco tiempo. Entonces, ahora lo he editado y ampliado con el flujo de trabajo y la comprensión de mis experiencias diarias con grandes datos en la industria.
Dawny33
1
Las cuatro V se están invirtiendo aquí como definición de big data en lugar de ser importantes propiedades notables de big data. Se pueden hacer muchos ejemplos de big data sin varios de esos 4 y algunos incluso se enumeran en la infografía de IBM.
John
@John Sí, las V realmente están cambiando mucho. También hay un argumento para una nueva V ( Valor )
Dawny33
1
No digo que estén cambiando, digo que estás invirtiendo una descripción de algunas propiedades en una definición incorrecta. Es como si alguien les describiera cosas importantes sobre un perro como lealtad, risas y lamidas, y alguien más viniera y dijera que esa es la definición de un perro. Dicho esto, creo que estabas más en el camino correcto considerando invertir la dirección del análisis, pero solo debe adjuntarse al tamaño de los datos de alguna manera. Creo que hay muchas buenas maneras de hacerlo y sería genial si desarrollaras una.
John
14

Creo que la única definición útil de big data es la información que cataloga toda la información sobre un fenómeno particular. Lo que quiero decir con eso es que, en lugar de tomar muestras de alguna población de interés y recopilar algunas mediciones de esas unidades, Big Data recopila mediciones de toda la población de interés. Supongamos que está interesado en los clientes de Amazon.com. Es perfectamente factible que Amazon.com recopile información sobre todas las compras de sus clientes, en lugar de solo rastrear a algunos usuarios o solo rastrear algunas transacciones.

En mi opinión, las definiciones que dependen del tamaño de la memoria de los datos en sí son de utilidad algo limitada. Según esa métrica, dada una computadora lo suficientemente grande, ningún dato es realmente un gran dato. En el extremo de una computadora infinitamente grande, este argumento puede parecer reductor, pero considere el caso de comparar mi computadora portátil de consumo con los servidores de Google. Claramente, tendría enormes problemas logísticos al intentar filtrar un terabyte de datos, pero Google tiene los recursos para manejar esa tarea con bastante facilidad. Más importante aún, el tamaño de su computadora no es una propiedad intrínseca de los datos , por lo que definir los datos simplemente en referencia a cualquier tecnología que tenga a mano es como medir la distancia en términos de la longitud de sus brazos.

Este argumento no es solo un formalismo. La necesidad de esquemas de paralelización complicados y plataformas informáticas distribuidas desaparece una vez que tiene suficiente potencia informática. Entonces, si aceptamos la definición de que Big Data es demasiado grande para caber en la RAM (o bloquea Excel, o lo que sea), luego de actualizar nuestras máquinas, Big Data deja de existir. Esto parece tonto.

Pero echemos un vistazo a algunos datos sobre big data, y lo llamaré "Big Metadata". Esta publicación de blog observa una tendencia importante: la RAM disponible está aumentando más rápidamente que el tamaño de los datos, y provoca provocativamente que "Big RAM está comiendo Big Data", es decir, con la infraestructura suficiente, ya no tiene un problema de big data, simplemente tiene datos y vuelve al dominio de los métodos de análisis convencionales.

Además, los diferentes métodos de representación tendrán diferentes tamaños, por lo que no está claro con precisión qué significa tener "grandes datos" definidos en referencia a su tamaño en memoria. Si sus datos se construyen de tal manera que se almacena mucha información redundante (es decir, elige una codificación ineficiente), puede cruzar fácilmente el umbral de lo que su computadora puede manejar fácilmente. Pero, ¿por qué quieres una definición para tener esta propiedad? En mi opinión, si el conjunto de datos es o no "big data" no debería depender de si hiciste o no elecciones eficientes en el diseño de la investigación.

Desde el punto de vista de un profesional, los grandes datos como los defino también conllevan requisitos computacionales, pero estos requisitos son específicos de la aplicación. Pensar a través del diseño de la base de datos (software, hardware, organización) para observaciones es muy diferente que para10 7104107observaciones, y eso está perfectamente bien. Esto también implica que los grandes datos, tal como los defino, pueden no necesitar tecnología especializada más allá de lo que hemos desarrollado en las estadísticas clásicas: las muestras y los intervalos de confianza siguen siendo herramientas inferenciales perfectamente útiles y válidas cuando se necesita extrapolar. Los modelos lineales pueden proporcionar respuestas perfectamente aceptables a algunas preguntas. Pero los grandes datos, tal como los defino, pueden requerir tecnología novedosa. Quizás necesite clasificar nuevos datos en una situación en la que tenga más predictores que datos de entrenamiento, o donde sus predictores crezcan con el tamaño de sus datos. Estos problemas requerirán tecnología más nueva.


Como comentario aparte, creo que esta pregunta es importante porque toca implícitamente por qué las definiciones son importantes, es decir, para quién está definiendo el tema. Una discusión sobre la suma para los alumnos de primer grado no comienza con la teoría de conjuntos, comienza con la referencia al conteo de objetos físicos. Según mi experiencia, la mayor parte del uso del término "big data" se produce en la prensa popular o en las comunicaciones entre personas que no son especialistas en estadística o aprendizaje automático (materiales de marketing que solicitan un análisis profesional, por ejemplo), y se utiliza para Expresan la idea de que las prácticas informáticas modernas significan que existe una gran cantidad de información disponible que puede ser explotada. Esto es casi siempre en el contexto de los datos que revelan información sobre los consumidores que es, tal vez si no privada, no inmediatamente obvia.

Por lo tanto, la connotación y el análisis que rodean el uso común de "big data" también conlleva la idea de que los datos pueden revelar detalles oscuros, ocultos o incluso privados de la vida de una persona, siempre que se aplique un método inferencial suficiente. Cuando los medios informan sobre big data, este deterioro del anonimato suele ser a lo que se dirigen: la definición de "big data" parece algo equivocada a la luz de esto, porque la prensa popular y los no especialistas no se preocupan por los méritos del azar. bosques y máquinas de vectores de soporte, etc., ni tienen una idea de los desafíos del análisis de datos a diferentes escalas. Y esto está bien.La preocupación desde su perspectiva se centra en las consecuencias sociales, políticas y legales de la era de la información. Una definición precisa para los medios o no especialistas no es realmente útil porque su comprensión tampoco es precisa. (No me piense presumido, simplemente estoy observando que no todos pueden ser expertos en todo).

Reinstalar a Mónica
fuente
77
Esta. "Según mi experiencia, la mayor parte del uso del término 'big data' ocurre en la prensa popular o en las comunicaciones entre personas que no son especialistas en estadística o aprendizaje automático (materiales de marketing que solicitan análisis profesional, por ejemplo)"
Momo
2
Creo que has dado en el clavo con tu último párrafo. Creo que hay una brecha muy clara entre la comprensión de la prensa popular y lo que las personas en estadística / ML / ciencia de datos piensan del término big data. Simplemente siento que debe haber un consenso más claro sobre lo que realmente es. Una razón para eso es tener una referencia de tal manera que las personas no puedan manipular el término o mal uso cuando obviamente no es aplicable.
Gumeo
1
Creo que estoy empezando a estar más de acuerdo contigo. Todavía siento que CV necesita una pregunta de referencia, donde las personas interesadas y en el tema ponen sus dos centavos al respecto. Estaba buscando preguntas aquí y sentí que faltaba esta discusión.
Gumeo
1
Creo que esta es una conversación valiosa, ¡y me alegra que haya hecho la pregunta! Y me alegro de que hayan encontrado útiles mis comentarios.
Vuelva a instalar Mónica
1
Me encanta esta respuesta por múltiples razones. Primero, creo que es realmente importante enfatizar que "big data" tiene poco que ver con los algoritmos utilizados para analizarlo. La mayoría de ellos tienen entre 20 y 30 años (bosque aleatorio, regresión lineal, etc.) y funcionan bien. Algunas personas en la industria creen que los "grandes datos" se combinan con nuevos algoritmos elegantes, porque probablemente ni siquiera sabían que el aprendizaje automático ha existido durante muchos años. Segundo, "big data" no se trata de tamaño. Si tiene un servidor disponible con 128 Gb de RAM y puede guardar todo en la memoria, es genial. (cont.)
skd
7

ingrese la descripción de la imagen aquí

Al verificar la enorme literatura sobre Big Data, he recopilado hasta 14 términos "V", 13 de ellos en 11 dimensiones:

  • Validez,
  • Valor,
  • Variabilidad / varianza,
  • Variedad,
  • Velocidad,
  • Veracidad / veracidad,
  • Viabilidad,
  • Virtualidad,
  • Visualización,
  • Volatilidad,
  • Volumen.

El decimocuarto término es Vacuity. Según una reciente publicación provocativa, Big Data no existe . Sus puntos principales son que:

  • "Big Data" no es grande
  • La mayoría de los "Big Data" no son realmente útiles
  • [Deberíamos estar] Aprovechando al máximo los datos pequeños

Una definición adecuada de Big Data evolucionaría con hardware, software, necesidades y conocimiento, y probablemente no dependa de un tamaño fijo. Por lo tanto, la definición de Big Data: la próxima frontera para la innovación, la competencia y la productividad , junio de 2011:

"Big data" se refiere a conjuntos de datos cuyo tamaño está más allá de la capacidad de las herramientas de software de bases de datos típicas para capturar, almacenar, administrar y analizar.

Laurent Duval
fuente
1
El artículo al que se hace referencia en "vacuidad" parece terriblemente débil. Hay una implicación de que 30 GB de datos / día no son grandes (y ese tamaño es el único componente de la definición). Además, se argumenta que debido a que las compañías dicen que sus datos son mucho más grandes de lo que realmente son, significa que no son grandes. No hay definición de grande dado en ningún lado. Y todos los ejemplos utilizados para sugerir "no grande" tienen muchas de las V enumeradas aquí.
John
La "vacuidad" no se aplica solo al tamaño. De hecho, en la línea final, la definición de grande está destinada a evolucionar con el estado actual de la práctica. Lo que fue grande en el pasado puede considerarse pequeño unos años más tarde. Aquí, estaba usando el término para el caso donde "big data" se usa como un mantra mágico con poca sustancia, como se ilustra en la caricatura anterior.
Laurent Duval
1
¿Qué posibilidades hay de que 14 criterios comiencen con una letra V? Todos somos personas con mentalidad estadística aquí, ¡vamos!
Aksakal
Básicamente, estoy de acuerdo, esto fue solo para mostrar que un término como Big data es más probable que pertenezca al ámbito del marketing que a las estadísticas. Sin embargo, quería compartir mi "colección" de los términos que he leído. Ha comenzado con 3V, luego 5V, y a veces 7, etc. Ese término puede ayudar vagamente a detectar rasgos en los datos que uno tiene
Laurent Duval
4

La gente parece obsesionarse con un gran calificador en Big Data. Sin embargo, el tamaño es solo uno de los componentes de este término (dominio). No es suficiente que su conjunto de datos sea grande para llamar a su problema (dominio) un gran dato, también necesita que sea difícil de entender, analizar e incluso procesar. Algunos llaman a esta característica no estructurada , pero no es solo la estructura, sino también la relación poco clara entre diferentes piezas y elementos de datos.

Considere los conjuntos de datos que los físicos de alta energía están trabajando en lugares como el CERN . Han estado trabajando con datos de tamaño de petabytes durante años antes de que se acuñara el término Big Data . Sin embargo, incluso ahora no llaman a este gran dato hasta donde yo sé. ¿Por qué? Como los datos son bastante regulares, saben qué hacer con ellos. Es posible que todavía no puedan explicar cada observación, por lo que trabajan en nuevos modelos, etc.

Ahora llamamos a Big Data los problemas relacionados con los conjuntos de datos que tienen tamaños que podrían generarse en pocos segundos desde el LHC en el CERN. La razón es que estos conjuntos de datos son generalmente de elementos de datos que provienen de multitud de fuentes con diferentes formatos, relaciones poco claras entre los datos y un valor incierto para el negocio. Podría ser de solo 1 TB, pero es muy difícil procesar todo el audio, el video, los textos, el habla, etc. Por lo tanto, en términos de complejidad y recursos necesarios, esto supera los petabytes de datos del CERN. Ni siquiera sabemos si hay información útil discernible en nuestros conjuntos de datos.

Por lo tanto, la resolución de problemas de Big Data implica analizar, extraer elementos de datos de valor desconocido y luego vincularlos entre sí. "Analizar" una imagen puede ser un gran problema por sí solo. Digamos que está buscando imágenes de circuito cerrado de televisión de las calles de la ciudad tratando de ver si la gente se enoja más y si afecta los accidentes de tránsito que involucran a peatones. Hay un montón de videos, encuentras las caras, intentas medir su estado de ánimo por expresiones, luego vinculas esto a la cantidad de conjuntos de datos de accidentes, informes policiales, etc., todo mientras controlas el clima (precitotación, temperatura) y las congestiones de tráfico. Necesita las herramientas analíticas y de almacenamiento que admiten estos grandes conjuntos de datos de diferentes tipos y que pueden vincular los datos entre sí de manera eficiente.

Big Data es un problema de análisis complejo en el que la complejidad se deriva tanto del tamaño puro como de la complejidad de la estructura y la codificación de la información.

Aksakal
fuente
Buena entrada El contraste que da entre el LHC y el problema de datos de CCTV es algo que la gente a menudo extraña.
Gumeo
3

Creo que la razón por la cual las personas se confunden con lo que es Big Data es porque no ven sus beneficios. El valor de Big Data (técnica) no solo está en la cantidad de datos que puede recopilar, sino también en el Modelo predictivo, que finalmente es más importante:

  1. El modelado predictivo cambió por completo la forma en que hacemos estadísticas y predicciones, nos da una mayor comprensión de nuestros datos, porque los nuevos modelos, las nuevas técnicas pueden detectar mejor las tendencias, los ruidos de los datos, pueden capturar bases de datos "multidimensionales". Cuantas más dimensiones tengamos en nuestra base de datos, más posibilidades tenemos de crear el buen modelo. El modelado predictivo es el corazón del valor de Big Data.
  2. Big Data (en términos de tamaño de datos) es el paso preliminar, y está ahí para servir el Modelado Predictivo al: enriquecer la base de datos con respecto a: 1. número de predictores (más variables), 2. número de observaciones.

Más predictores porque ahora somos capaces de capturar los datos que antes eran imposibles de capturar (debido a la potencia limitada del hardware, la capacidad limitada para trabajar en los datos no estructurados). Más predictores significan más oportunidades de tener predictores significativos, es decir, un mejor modelo, una mejor predicción, una mejor decisión para el negocio.

Más observaciones no solo hacen que el modelo sea más robusto con el tiempo, sino que también ayudan a que el modelo aprenda / detecte todos los patrones posibles que se pueden presentar / generar en la realidad.

Metariado
fuente
3

Lo complicado de Big Data frente a su antónimo (¿presumiblemente Small Data?) Es que es un continuo. Las personas de big data se han ido a un lado del espectro, las personas de datos pequeños se han ido al otro, pero no hay una línea clara en la arena en la que todos puedan estar de acuerdo.

Me gustaría ver las diferencias de comportamiento entre los dos. En situaciones de datos pequeños, tiene un conjunto de datos "pequeño" y busca obtener la mayor cantidad de información posible de cada punto de datos que pueda. Obtenga más datos, puede obtener más resultados. Sin embargo, obtener más datos puede ser costoso. Los datos que se recopilan a menudo se ven limitados a adaptarse a modelos matemáticos, como hacer un factorial parcial de pruebas para detectar comportamientos interesantes.

En situaciones de big data, tiene un conjunto de datos "grande", pero su conjunto de datos tiende a no ser tan limitado. Por lo general, no puede convencer a sus clientes de comprar un mueble cuadrado latino, solo para facilitar el análisis. En cambio, tiendes a tener cantidades de datos mal estructurados. Para resolver estos problemas, el objetivo tiende a no ser "seleccionar los mejores datos y exprimir todo lo que pueda de ellos", como uno podría intentar ingenuamente si uno está acostumbrado a datos pequeños. El objetivo tiende a ser más similar a "si solo puede obtener una pequeña pizca de cada punto de datos, la suma será enorme y profunda".

Entre ellos se encuentran los conjuntos de datos de tamaño mediano, con una estructura correcta. Estos son los "problemas realmente difíciles", así que en este momento tendemos a organizarnos en dos campos: uno con datos pequeños exprimiéndolo hasta el último, y el otro con datos grandes tratando de lograr que cada punto de datos brille por sí mismo derecho. A medida que avanzamos, espero ver más procesos de datos pequeños que intentan adaptarse a conjuntos de datos más grandes, y más procesos de datos grandes que intentan adaptarse para aprovechar datos más estructurados.

Cort Ammon
fuente
Su caracterización de datos pequeños se parece mucho al libro de análisis de Bem. Busque críticas sobre eso porque es una forma inapropiada de tratar pequeños conjuntos de datos que no sean para la exploración privada en la que basar la recopilación de datos en el futuro.
John
@John puede que tenga que mirar eso. ¿Son suficientes las críticas para que ni siquiera pueda usar la caracterización como un punto para describir un continuo?
Cort Ammon
Es realmente demasiado largo entrar aquí, pero el mensaje esencial es que no exprimes todo lo que puedes de cada punto de datos con datos pequeños. Quizás google Gelman y Forking Paths; o, experimentador grados de libertad. Debe pensar en el análisis de datos pequeños y grandes de manera diferente, no solo como puntos en un continuo.
John
3

Diría que hay tres componentes que son esenciales para definir los grandes datos: la dirección del análisis, el tamaño de los datos con respecto a la población y el tamaño de los datos con respecto a los problemas computacionales.

La pregunta en sí plantea que las hipótesis se desarrollan después de que existan datos. No uso "recopilado" porque creo que la palabra "recopilado" implica un propósito y los datos a menudo existen sin un propósito conocido en ese momento. La recopilación a menudo ocurre en big data al reunir los datos existentes al servicio de una pregunta.

Una segunda parte importante es que no es solo cualquier dato para el que el análisis post hoc, lo que uno llamaría análisis exploratorio con conjuntos de datos más pequeños, es apropiado. Debe tener el tamaño suficiente para creer que las estimaciones obtenidas de él son lo suficientemente cercanas a las estimaciones de la población como para que se puedan ignorar muchos problemas de muestras más pequeñas. Debido a esto, estoy un poco preocupado de que haya un impulso en este momento hacia múltiples correcciones de comparación. Si tenía toda la población, o una aproximación que tiene buenas razones para creer que es válida, tales correcciones deberían ser discutibles. Si bien me doy cuenta de que ocurre que a veces se plantean problemas que realmente convierten los "datos grandes" en una muestra pequeña (por ejemplo, grandes regresiones logísticas), que se reduce a comprender qué es una muestra grande para una pregunta específica. En su lugar, muchas de las preguntas de comparación múltiple deben convertirse en preguntas de tamaño de efecto. Y, por supuesto, toda la idea de que usaría pruebas con alfa = 0.05, como muchos todavía hacen con big data, es simplemente absurda.

Y finalmente, las poblaciones pequeñas no califican. En algunos casos hay una población pequeña y se pueden recopilar todos los datos necesarios para examinarlos muy fácilmente y permitir que se cumplan los dos primeros criterios. Los datos deben ser de magnitud suficiente para que se conviertan en un problema computacional. Como tal, de alguna manera debemos admitir que "big data" puede ser una palabra de moda transitoria y quizás un fenómeno perpetuo en busca de una definición estricta. Algunas de las cosas que hacen que los "grandes datos" sean grandes ahora desaparecerán en unos pocos años y definiciones como la de Hadley, basadas en la capacidad de la computadora, parecerán pintorescas. Pero en otro nivel, los problemas computacionales son preguntas que no se refieren a la capacidad de la computadora o tal vez a la capacidad de la computadora que nunca se puede abordar. Creo que en ese sentido los problemas de definir "

Uno podría notar que no he proporcionado ejemplos o definiciones firmes de lo que es un problema computacional difícil para este dominio (generalmente hay muchos ejemplos en comp sci, y algunos aplicables, en los que no entraré). No quiero hacer ninguno porque creo que tendrá que permanecer algo abierto. Con el tiempo, los trabajos recopilados de muchas personas se unen para facilitar tales cosas, más a menudo a través del desarrollo de software que el hardware en este momento. Tal vez el campo tendrá que madurar más completamente para hacer que este último requisito esté más sólidamente delimitado, pero los bordes siempre estarán borrosos.

John
fuente
¡Gracias por tu contribución! Creo que proporciona información valiosa para este hilo. Creo que aquí se ha pasado por alto el tamaño de los datos de la población.
Gumeo
1

Wikipedia proporciona una definición bastante clara

Big data es un término amplio para conjuntos de datos tan grandes o complejos que las aplicaciones tradicionales de procesamiento de datos son inadecuadas. (fuente https://en.wikipedia.org/wiki/Big_data )

otra definición simple que sé es

Datos que no se ajustan a la memoria de la computadora.

Lamentablemente no recuerdo referencia para ello. Todo lo demás surge de estas definiciones: hay que lidiar de alguna manera con grandes cantidades de datos.

Tim
fuente
0

Agregaría que Big Data es una referencia para trabajar en grandes conjuntos de datos (millones y / o miles de millones de filas) o para tratar de encontrar información / patrones en amplios recursos de datos que puede recopilar ahora en todas partes.

Yohan Obadia
fuente