¿O más, "será"? Big Data hace que las estadísticas y el conocimiento relevante sean aún más importantes, pero parece minimizar la teoría de muestreo.
He visto esta exageración sobre 'Big Data' y no puedo evitar preguntarme por qué "¿por qué" querría analizar todo ? ¿No había una razón para que la "Teoría de muestreo" fuera diseñada / implementada / inventada / descubierta? No entiendo el punto de analizar toda la 'población' del conjunto de datos. El hecho de que puedas hacerlo no significa que debas hacerlo (la estupidez es un privilegio pero no debes abusar de ella :)
Entonces mi pregunta es la siguiente: ¿es estadísticamente relevante analizar todo el conjunto de datos? Lo mejor que podría hacer sería minimizar el error si realizara el muestreo. ¿Pero realmente vale la pena el costo de minimizar ese error? ¿Realmente vale la pena el "valor de la información", el esfuerzo, el costo de tiempo, etc., que conlleva el análisis de grandes datos en computadoras masivamente paralelas?
Incluso si uno analiza a toda la población, el resultado sería, en el mejor de los casos, una suposición con una mayor probabilidad de tener razón. Probablemente un poco más alto que el muestreo (¿o sería mucho más?) ¿La percepción obtenida del análisis de la población frente al análisis de la muestra diferiría ampliamente?
¿O deberíamos aceptarlo como "los tiempos han cambiado"? El muestreo como actividad podría volverse menos importante dada la potencia computacional suficiente :)
Nota: No estoy tratando de iniciar un debate, sino que estoy buscando una respuesta para entender por qué Big Data hace lo que hace (es decir, analizar todo) y no tener en cuenta la teoría del muestreo (¿o no lo hace?)
fuente
Respuestas:
En una palabra, si . Creo que todavía hay situaciones claras en las que el muestreo es apropiado, dentro y fuera del mundo de los "grandes datos", pero la naturaleza de los grandes datos ciertamente cambiará nuestro enfoque al muestreo, y utilizaremos más conjuntos de datos que son representaciones casi completas de la información subyacente. población.
Sobre el muestreo: Dependiendo de las circunstancias, casi siempre estará claro si el muestreo es algo apropiado. El muestreo no es una actividad inherentemente beneficiosa; es justo lo que hacemos porque necesitamos compensar el costo de implementar la recopilación de datos. Estamos tratando de caracterizar las poblaciones y necesitamos seleccionar el método apropiado para recopilar y analizar datos sobre la población. El muestreo tiene sentido cuando el costo marginal de un método de recolección o procesamiento de datos es alto. Tratar de llegar al 100% de la población no es un buen uso de los recursos en ese caso, porque a menudo es mejor abordar cosas como el sesgo de no respuesta que hacer pequeñas mejoras en el error de muestreo aleatorio.
¿Cómo es diferente el big data? "Big data" aborda muchas de las mismas preguntas que hemos tenido durante años, pero lo que es "nuevo" es que la recopilación de datos se realiza a partir de un proceso existente, mediado por computadora, por lo que el costo marginal de recopilar datos es esencialmente cero. Esto reduce drásticamente nuestra necesidad de muestreo.
¿Cuándo seguiremos usando el muestreo? Si su población de "big data" es la población adecuada para el problema, solo empleará el muestreo en algunos casos: la necesidad de ejecutar grupos experimentales separados, o si el volumen de datos es demasiado grande para capturar y procesar (muchos de nosotros podemos manejar millones de filas de datos con facilidad hoy en día, por lo que el límite aquí se está alejando cada vez más). Si parece que estoy descartando su pregunta, probablemente sea porque rara vez me he encontrado con situaciones en las que el volumen de datos era una preocupación, ya sea en las etapas de recopilación o procesamiento, aunque sé que muchos tienen
La situación que me parece difícil es cuando su población de "big data" no representa perfectamente a su población objetivo, por lo que las compensaciones son más manzanas por naranjas. Digamos que usted es un planificador de transporte regional, y Google le ha ofrecido darle acceso a sus registros de navegación GPS de Android para ayudarlo. Si bien el conjunto de datos sin duda sería interesante de usar, la población probablemente estaría sesgada sistemáticamente contra los usuarios de bajos ingresos, el transporte público y los ancianos. En tal situación, los diarios de viaje tradicionales enviados a una muestra aleatoria de hogares, aunque más costosos y más pequeños en número, aún podrían ser el método superior de recopilación de datos. Pero, esto no es simplemente una cuestión de "muestreo versus big data", es '
fuente
Si bien puede haber una gran cantidad de Big Data producida por los dispositivos móviles y demás, hay pocos datos utilizables en ella. Si desea predecir los patrones de viaje urbano usando foursquare, es posible que se desplace por un orden de magnitud en los flujos estimados. Peor aún, no sabrá si está sobreestimado o subestimando estos flujos. Puede obtener una imagen increíblemente precisa de los patrones de viaje urbano de los usuarios de foursquare maníacos, pero a menos que se requiera que todos (1) mantengan un teléfono inteligente en funcionamiento, (2) para ejecutar la aplicación foursquare todo el tiempo y (3) para registrarse en cualquier lugar en el que permanezcan por más de 10 minutos (es decir, obtenga un Censo electrónico; deje que los libertarios se quejen de que Google y Facebook sepan todo sobre usted), sus datos contendrán prejuicios desconocidos y sus Deweys electrónicos continuarán venciendo la palabra real Trumans (se puede hacer clic):
(fuente: whatisasurvey.info )
En todo caso, esperaría que esta parte de la historia se repita, y algunos grandes pronósticos de "cerveza + pañales" producidos a partir de Big Data serían anulados por los investigadores utilizando enfoques de muestreo más rigurosos. Es sorprendente que las encuestas basadas en la probabilidad sigan siendo precisas incluso a pesar de la caída de las tasas de respuesta.
fuente
Siempre que se apliquen técnicas de inferencia estadística, es importante ser claro en cuanto a la población sobre la que se pretende sacar conclusiones. Incluso si los datos que se han recopilado son muy grandes, pueden estar relacionados solo con una pequeña parte de la población y pueden no ser muy representativos del conjunto.
Supongamos, por ejemplo, que una empresa que opera en una determinada industria ha recopilado 'grandes datos' sobre sus clientes en un determinado país. Si quiere usar esos datos para sacar conclusiones sobre sus clientes existentes en ese país, entonces el muestreo podría no ser muy relevante. Sin embargo, si quiere sacar conclusiones sobre una población más grande, tanto clientes potenciales como existentes, o clientes en otro país, entonces es esencial considerar en qué medida los clientes sobre los que se han recopilado datos son representativos, tal vez en ingresos, edad , género, educación, etc. - de la población en general.
La dimensión del tiempo también debe ser considerada. Si el objetivo es utilizar la inferencia estadística para respaldar las predicciones, se debe entender que la población se extenderá hacia el futuro. Si es así, nuevamente es esencial considerar si el conjunto de datos, por grande que sea, se obtuvo en circunstancias representativas de las que pueda obtener en el futuro.
fuente
Por lo que he visto de la moda de Big Data / ML, pensar en el muestreo y la población de la que se extrae su muestra es tan importante como siempre, pero pensé en menos.
Estoy "auditando" la clase de Stanford ML, y hasta ahora hemos cubierto la regresión y las redes neuronales sin mencionar la inferencia de la población. Dado que esta clase ha sido tomada por 6 personas, ahora hay muchísimas personas que saben cómo ajustar los datos con mucha voluntad sin ninguna noción de la idea de una muestra.
fuente
Sí, el muestreo es relevante y seguirá siéndolo. La conclusión es que la precisión de una estimación estadística generalmente es una función del tamaño de la muestra, no de la población a la que queremos generalizar. Por lo tanto, una proporción media o promedio calculada a partir de una muestra de 1,000 encuestados arrojará una estimación de una cierta precisión (con respecto a toda la población de la que tomamos muestras), independientemente del tamaño de la población (o "qué tan grande" el " grandes datos "son son).
Dicho esto: Hay problemas y desafíos específicos que son relevantes y deben mencionarse:
Puede consultar nuestra 'Revolución de Big Data' aquí.
fuente
Muchos métodos de Big Data en realidad están diseñados alrededor del muestreo.
La pregunta debería estar más en la línea de:
Muchas de las cosas de "big data" todavía son bastante frescas y, a veces, ingenuas. Los medios K, por ejemplo, pueden ser paralelos trivialmente y, por lo tanto, funcionan para "grandes datos" (no voy a hablar sobre los resultados, no son muy significativos; ¡y probablemente no sean muy diferentes a los obtenidos en una muestra!). Hasta donde yo sé, esto es lo que hace la implementación de k-means en Mahout.
Sin embargo, la investigación va más allá de la paralelización ingenua (que aún puede requerir una gran cantidad de iteraciones) y trata de hacer K-means en un número fijo de iteraciones. Ejemplo para esto:
Ene, A. e Im, S. y Moseley, B.
Actas de la 17ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos, 2011
Y adivina qué, su enfoque se basa en gran medida en el muestreo .
Siguiente ejemplo: bosques de decisión . Eso es esencialmente: para varias muestras del conjunto de datos, construya un árbol de decisión cada una. Puede volverse paralelizado trivialmente: coloque cada muestra en una máquina separada. Y nuevamente, es un enfoque basado en muestreo.
¡Entonces el muestreo es uno de los ingredientes clave para los enfoques de big data!
Y no hay nada de malo en esto.
fuente
La validación cruzada es un ejemplo específico de submuestreo que es bastante importante en ML / big data. En términos más generales, los grandes datos siguen siendo una muestra de una población, como han mencionado otras personas aquí.
Pero, creo que OP podría referirse específicamente al muestreo, ya que se aplica a experimentos controlados, en comparación con los datos de observación. Por lo general, los grandes datos se consideran los últimos, pero para mí al menos hay excepciones. Pensaría en los ensayos aleatorios, las pruebas A / B y los bandidos de múltiples grupos en el comercio electrónico y la configuración de las redes sociales como ejemplos de "muestreo en entornos de big data".
fuente
En las áreas donde Big Data está ganando popularidad: Búsqueda, Publicidad, Sistemas de recomendación como Amazon, Netflix, existe un gran incentivo para explorar todo el conjunto de datos.
El objetivo de estos sistemas es adaptar las recomendaciones / sugerencias a cada miembro de la población. Además, el número de atributos que se estudian es enorme. El sistema de análisis web promedio puede medir la tasa de clics, el "seguimiento térmico" de las "áreas calientes" en una página, las interacciones sociales, etc. y compararlas con un amplio conjunto de objetivos predeterminados.
Más importante aún, la mayoría de los lugares donde Big Data ahora es omnipresente son flujos de datos "en línea", es decir, los datos se agregan / actualizan constantemente. Diseñar un esquema de muestreo que cubra todos estos atributos sin un sesgo inherente y aún así ofrecer resultados prometedores (leer mejores márgenes) es un desafío.
El muestreo sigue siendo muy relevante para encuestas, ensayos médicos, pruebas A / B y garantía de calidad.
En pocas palabras, el muestreo es muy útil cuando la población a estudiar es muy grande y le interesan las propiedades macroscópicas de la población. La comprobación al 100% (Big Data) es necesaria para explotar las propiedades microscópicas del sistema.
Espero que esto ayude :)
fuente