En varias ocasiones me han hecho la pregunta:
¿Qué es Big-Data?
Tanto por los estudiantes como por mis familiares que están recogiendo el rumor sobre las estadísticas y el aprendizaje automático.
Encontré esta publicación de CV . Y siento que estoy de acuerdo con la única respuesta allí.
La página de Wikipedia también tiene algunos comentarios, pero no estoy seguro si realmente estoy de acuerdo con todo lo que hay allí.
EDITAR: (Siento que la página de Wikipedia no explica los métodos para abordar esto y el paradigma que menciono a continuación) .
Hace poco asistí a una conferencia de Emmanuel Candès , donde presentó el paradigma Big-Data como
Recopile datos primero Haga preguntas más tarde
Esta es la principal diferencia de la investigación basada en hipótesis, en la que primero se formula una hipótesis y luego se recopilan datos para decir algo al respecto.
Se ocupó mucho de los problemas de cuantificación de la fiabilidad de las hipótesis generadas por la indagación de datos. Lo principal que saqué de su conferencia fue que realmente necesitamos comenzar a controlar el FDR y presentó el método de imitación para hacerlo.
Creo que CV debería tener una pregunta sobre qué es Big-Data y cuál es su definición. Siento que hay tantas "definiciones" diferentes , que es difícil comprender realmente lo que es, o explicarlo a otros, si no hay un consenso general sobre en qué consiste.
Siento que la "definición / paradigma / descripción" proporcionada por Candès es lo más cercano a lo que estoy de acuerdo, ¿cuáles son sus pensamientos?
EDIT2: Creo que la respuesta debería proporcionar algo más que una explicación de los datos en sí. Debe ser una combinación de datos / métodos / paradigma.
EDITAR3: Siento que esta entrevista con Michael Jordan también podría agregar algo a la mesa.
EDITAR4: Decidí elegir la respuesta más votada como la correcta. Aunque creo que todas las respuestas agregan algo a la discusión y personalmente siento que se trata más de un paradigma de cómo generamos hipótesis y trabajamos con datos. Espero que esta pregunta sirva como un conjunto de referencias para aquellos que buscan lo que es Big-Data. Espero que la página de Wikipedia se cambie para enfatizar aún más el problema de comparación múltiple y el control de FDR.
fuente
Respuestas:
Tuve el placer de asistir a una conferencia dada por el Dr. Hadley Wickham, de la fama RStudio. Lo definió de tal manera
Hadley también cree que la mayoría de los datos pueden al menos reducirse a problemas manejables, y que una cantidad muy pequeña es realmente big data. Denota esto como el "Big Data Mirage".
Las diapositivas se pueden encontrar aquí .
fuente
Un conjunto / flujo de datos se llama Big Data, si satisface las cuatro V
A menos que y hasta que no esté satisfecho, el conjunto de datos no se pueda denominar Big Data.
Una respuesta similar mía, como referencia.
Dicho esto, como científico de datos; Encuentro el marco Map-Reduce realmente agradable. Dividir sus datos, mapearlos y luego los resultados del paso del mapeador se reducen en un solo resultado. Encuentro este marco realmente fascinante y cómo ha beneficiado al mundo de los datos.
Y estas son algunas formas en que trato el problema de datos durante mi trabajo todos los días:
Y así es como se lleva a cabo un experimento de datos:
Sí, hay algoritmos de Big Data como hyper loglog, etc. pero no he encontrado la necesidad de usarlos.
Entonces sí. Los datos se recopilan primero antes de generar la hipótesis.
fuente
Creo que la única definición útil de big data es la información que cataloga toda la información sobre un fenómeno particular. Lo que quiero decir con eso es que, en lugar de tomar muestras de alguna población de interés y recopilar algunas mediciones de esas unidades, Big Data recopila mediciones de toda la población de interés. Supongamos que está interesado en los clientes de Amazon.com. Es perfectamente factible que Amazon.com recopile información sobre todas las compras de sus clientes, en lugar de solo rastrear a algunos usuarios o solo rastrear algunas transacciones.
En mi opinión, las definiciones que dependen del tamaño de la memoria de los datos en sí son de utilidad algo limitada. Según esa métrica, dada una computadora lo suficientemente grande, ningún dato es realmente un gran dato. En el extremo de una computadora infinitamente grande, este argumento puede parecer reductor, pero considere el caso de comparar mi computadora portátil de consumo con los servidores de Google. Claramente, tendría enormes problemas logísticos al intentar filtrar un terabyte de datos, pero Google tiene los recursos para manejar esa tarea con bastante facilidad. Más importante aún, el tamaño de su computadora no es una propiedad intrínseca de los datos , por lo que definir los datos simplemente en referencia a cualquier tecnología que tenga a mano es como medir la distancia en términos de la longitud de sus brazos.
Este argumento no es solo un formalismo. La necesidad de esquemas de paralelización complicados y plataformas informáticas distribuidas desaparece una vez que tiene suficiente potencia informática. Entonces, si aceptamos la definición de que Big Data es demasiado grande para caber en la RAM (o bloquea Excel, o lo que sea), luego de actualizar nuestras máquinas, Big Data deja de existir. Esto parece tonto.
Pero echemos un vistazo a algunos datos sobre big data, y lo llamaré "Big Metadata". Esta publicación de blog observa una tendencia importante: la RAM disponible está aumentando más rápidamente que el tamaño de los datos, y provoca provocativamente que "Big RAM está comiendo Big Data", es decir, con la infraestructura suficiente, ya no tiene un problema de big data, simplemente tiene datos y vuelve al dominio de los métodos de análisis convencionales.
Además, los diferentes métodos de representación tendrán diferentes tamaños, por lo que no está claro con precisión qué significa tener "grandes datos" definidos en referencia a su tamaño en memoria. Si sus datos se construyen de tal manera que se almacena mucha información redundante (es decir, elige una codificación ineficiente), puede cruzar fácilmente el umbral de lo que su computadora puede manejar fácilmente. Pero, ¿por qué quieres una definición para tener esta propiedad? En mi opinión, si el conjunto de datos es o no "big data" no debería depender de si hiciste o no elecciones eficientes en el diseño de la investigación.
Desde el punto de vista de un profesional, los grandes datos como los defino también conllevan requisitos computacionales, pero estos requisitos son específicos de la aplicación. Pensar a través del diseño de la base de datos (software, hardware, organización) para observaciones es muy diferente que para10 7104 107 observaciones, y eso está perfectamente bien. Esto también implica que los grandes datos, tal como los defino, pueden no necesitar tecnología especializada más allá de lo que hemos desarrollado en las estadísticas clásicas: las muestras y los intervalos de confianza siguen siendo herramientas inferenciales perfectamente útiles y válidas cuando se necesita extrapolar. Los modelos lineales pueden proporcionar respuestas perfectamente aceptables a algunas preguntas. Pero los grandes datos, tal como los defino, pueden requerir tecnología novedosa. Quizás necesite clasificar nuevos datos en una situación en la que tenga más predictores que datos de entrenamiento, o donde sus predictores crezcan con el tamaño de sus datos. Estos problemas requerirán tecnología más nueva.
Como comentario aparte, creo que esta pregunta es importante porque toca implícitamente por qué las definiciones son importantes, es decir, para quién está definiendo el tema. Una discusión sobre la suma para los alumnos de primer grado no comienza con la teoría de conjuntos, comienza con la referencia al conteo de objetos físicos. Según mi experiencia, la mayor parte del uso del término "big data" se produce en la prensa popular o en las comunicaciones entre personas que no son especialistas en estadística o aprendizaje automático (materiales de marketing que solicitan un análisis profesional, por ejemplo), y se utiliza para Expresan la idea de que las prácticas informáticas modernas significan que existe una gran cantidad de información disponible que puede ser explotada. Esto es casi siempre en el contexto de los datos que revelan información sobre los consumidores que es, tal vez si no privada, no inmediatamente obvia.
Por lo tanto, la connotación y el análisis que rodean el uso común de "big data" también conlleva la idea de que los datos pueden revelar detalles oscuros, ocultos o incluso privados de la vida de una persona, siempre que se aplique un método inferencial suficiente. Cuando los medios informan sobre big data, este deterioro del anonimato suele ser a lo que se dirigen: la definición de "big data" parece algo equivocada a la luz de esto, porque la prensa popular y los no especialistas no se preocupan por los méritos del azar. bosques y máquinas de vectores de soporte, etc., ni tienen una idea de los desafíos del análisis de datos a diferentes escalas. Y esto está bien.La preocupación desde su perspectiva se centra en las consecuencias sociales, políticas y legales de la era de la información. Una definición precisa para los medios o no especialistas no es realmente útil porque su comprensión tampoco es precisa. (No me piense presumido, simplemente estoy observando que no todos pueden ser expertos en todo).
fuente
Al verificar la enorme literatura sobre Big Data, he recopilado hasta 14 términos "V", 13 de ellos en 11 dimensiones:
El decimocuarto término es Vacuity. Según una reciente publicación provocativa, Big Data no existe . Sus puntos principales son que:
Una definición adecuada de Big Data evolucionaría con hardware, software, necesidades y conocimiento, y probablemente no dependa de un tamaño fijo. Por lo tanto, la definición de Big Data: la próxima frontera para la innovación, la competencia y la productividad , junio de 2011:
fuente
La gente parece obsesionarse con un gran calificador en Big Data. Sin embargo, el tamaño es solo uno de los componentes de este término (dominio). No es suficiente que su conjunto de datos sea grande para llamar a su problema (dominio) un gran dato, también necesita que sea difícil de entender, analizar e incluso procesar. Algunos llaman a esta característica no estructurada , pero no es solo la estructura, sino también la relación poco clara entre diferentes piezas y elementos de datos.
Considere los conjuntos de datos que los físicos de alta energía están trabajando en lugares como el CERN . Han estado trabajando con datos de tamaño de petabytes durante años antes de que se acuñara el término Big Data . Sin embargo, incluso ahora no llaman a este gran dato hasta donde yo sé. ¿Por qué? Como los datos son bastante regulares, saben qué hacer con ellos. Es posible que todavía no puedan explicar cada observación, por lo que trabajan en nuevos modelos, etc.
Ahora llamamos a Big Data los problemas relacionados con los conjuntos de datos que tienen tamaños que podrían generarse en pocos segundos desde el LHC en el CERN. La razón es que estos conjuntos de datos son generalmente de elementos de datos que provienen de multitud de fuentes con diferentes formatos, relaciones poco claras entre los datos y un valor incierto para el negocio. Podría ser de solo 1 TB, pero es muy difícil procesar todo el audio, el video, los textos, el habla, etc. Por lo tanto, en términos de complejidad y recursos necesarios, esto supera los petabytes de datos del CERN. Ni siquiera sabemos si hay información útil discernible en nuestros conjuntos de datos.
Por lo tanto, la resolución de problemas de Big Data implica analizar, extraer elementos de datos de valor desconocido y luego vincularlos entre sí. "Analizar" una imagen puede ser un gran problema por sí solo. Digamos que está buscando imágenes de circuito cerrado de televisión de las calles de la ciudad tratando de ver si la gente se enoja más y si afecta los accidentes de tránsito que involucran a peatones. Hay un montón de videos, encuentras las caras, intentas medir su estado de ánimo por expresiones, luego vinculas esto a la cantidad de conjuntos de datos de accidentes, informes policiales, etc., todo mientras controlas el clima (precitotación, temperatura) y las congestiones de tráfico. Necesita las herramientas analíticas y de almacenamiento que admiten estos grandes conjuntos de datos de diferentes tipos y que pueden vincular los datos entre sí de manera eficiente.
Big Data es un problema de análisis complejo en el que la complejidad se deriva tanto del tamaño puro como de la complejidad de la estructura y la codificación de la información.
fuente
Creo que la razón por la cual las personas se confunden con lo que es Big Data es porque no ven sus beneficios. El valor de Big Data (técnica) no solo está en la cantidad de datos que puede recopilar, sino también en el Modelo predictivo, que finalmente es más importante:
Más predictores porque ahora somos capaces de capturar los datos que antes eran imposibles de capturar (debido a la potencia limitada del hardware, la capacidad limitada para trabajar en los datos no estructurados). Más predictores significan más oportunidades de tener predictores significativos, es decir, un mejor modelo, una mejor predicción, una mejor decisión para el negocio.
Más observaciones no solo hacen que el modelo sea más robusto con el tiempo, sino que también ayudan a que el modelo aprenda / detecte todos los patrones posibles que se pueden presentar / generar en la realidad.
fuente
Lo complicado de Big Data frente a su antónimo (¿presumiblemente Small Data?) Es que es un continuo. Las personas de big data se han ido a un lado del espectro, las personas de datos pequeños se han ido al otro, pero no hay una línea clara en la arena en la que todos puedan estar de acuerdo.
Me gustaría ver las diferencias de comportamiento entre los dos. En situaciones de datos pequeños, tiene un conjunto de datos "pequeño" y busca obtener la mayor cantidad de información posible de cada punto de datos que pueda. Obtenga más datos, puede obtener más resultados. Sin embargo, obtener más datos puede ser costoso. Los datos que se recopilan a menudo se ven limitados a adaptarse a modelos matemáticos, como hacer un factorial parcial de pruebas para detectar comportamientos interesantes.
En situaciones de big data, tiene un conjunto de datos "grande", pero su conjunto de datos tiende a no ser tan limitado. Por lo general, no puede convencer a sus clientes de comprar un mueble cuadrado latino, solo para facilitar el análisis. En cambio, tiendes a tener cantidades de datos mal estructurados. Para resolver estos problemas, el objetivo tiende a no ser "seleccionar los mejores datos y exprimir todo lo que pueda de ellos", como uno podría intentar ingenuamente si uno está acostumbrado a datos pequeños. El objetivo tiende a ser más similar a "si solo puede obtener una pequeña pizca de cada punto de datos, la suma será enorme y profunda".
Entre ellos se encuentran los conjuntos de datos de tamaño mediano, con una estructura correcta. Estos son los "problemas realmente difíciles", así que en este momento tendemos a organizarnos en dos campos: uno con datos pequeños exprimiéndolo hasta el último, y el otro con datos grandes tratando de lograr que cada punto de datos brille por sí mismo derecho. A medida que avanzamos, espero ver más procesos de datos pequeños que intentan adaptarse a conjuntos de datos más grandes, y más procesos de datos grandes que intentan adaptarse para aprovechar datos más estructurados.
fuente
Diría que hay tres componentes que son esenciales para definir los grandes datos: la dirección del análisis, el tamaño de los datos con respecto a la población y el tamaño de los datos con respecto a los problemas computacionales.
La pregunta en sí plantea que las hipótesis se desarrollan después de que existan datos. No uso "recopilado" porque creo que la palabra "recopilado" implica un propósito y los datos a menudo existen sin un propósito conocido en ese momento. La recopilación a menudo ocurre en big data al reunir los datos existentes al servicio de una pregunta.
Una segunda parte importante es que no es solo cualquier dato para el que el análisis post hoc, lo que uno llamaría análisis exploratorio con conjuntos de datos más pequeños, es apropiado. Debe tener el tamaño suficiente para creer que las estimaciones obtenidas de él son lo suficientemente cercanas a las estimaciones de la población como para que se puedan ignorar muchos problemas de muestras más pequeñas. Debido a esto, estoy un poco preocupado de que haya un impulso en este momento hacia múltiples correcciones de comparación. Si tenía toda la población, o una aproximación que tiene buenas razones para creer que es válida, tales correcciones deberían ser discutibles. Si bien me doy cuenta de que ocurre que a veces se plantean problemas que realmente convierten los "datos grandes" en una muestra pequeña (por ejemplo, grandes regresiones logísticas), que se reduce a comprender qué es una muestra grande para una pregunta específica. En su lugar, muchas de las preguntas de comparación múltiple deben convertirse en preguntas de tamaño de efecto. Y, por supuesto, toda la idea de que usaría pruebas con alfa = 0.05, como muchos todavía hacen con big data, es simplemente absurda.
Y finalmente, las poblaciones pequeñas no califican. En algunos casos hay una población pequeña y se pueden recopilar todos los datos necesarios para examinarlos muy fácilmente y permitir que se cumplan los dos primeros criterios. Los datos deben ser de magnitud suficiente para que se conviertan en un problema computacional. Como tal, de alguna manera debemos admitir que "big data" puede ser una palabra de moda transitoria y quizás un fenómeno perpetuo en busca de una definición estricta. Algunas de las cosas que hacen que los "grandes datos" sean grandes ahora desaparecerán en unos pocos años y definiciones como la de Hadley, basadas en la capacidad de la computadora, parecerán pintorescas. Pero en otro nivel, los problemas computacionales son preguntas que no se refieren a la capacidad de la computadora o tal vez a la capacidad de la computadora que nunca se puede abordar. Creo que en ese sentido los problemas de definir "
Uno podría notar que no he proporcionado ejemplos o definiciones firmes de lo que es un problema computacional difícil para este dominio (generalmente hay muchos ejemplos en comp sci, y algunos aplicables, en los que no entraré). No quiero hacer ninguno porque creo que tendrá que permanecer algo abierto. Con el tiempo, los trabajos recopilados de muchas personas se unen para facilitar tales cosas, más a menudo a través del desarrollo de software que el hardware en este momento. Tal vez el campo tendrá que madurar más completamente para hacer que este último requisito esté más sólidamente delimitado, pero los bordes siempre estarán borrosos.
fuente
Wikipedia proporciona una definición bastante clara
otra definición simple que sé es
Lamentablemente no recuerdo referencia para ello. Todo lo demás surge de estas definiciones: hay que lidiar de alguna manera con grandes cantidades de datos.
fuente
Agregaría que Big Data es una referencia para trabajar en grandes conjuntos de datos (millones y / o miles de millones de filas) o para tratar de encontrar información / patrones en amplios recursos de datos que puede recopilar ahora en todas partes.
fuente