¿Cómo sacar conclusiones válidas de "big data"?

"Big data" está en todas partes en los medios. Todos dicen que "big data" es lo más importante para 2012, por ejemplo, la encuesta de KDNuggets sobre temas candentes para 2012 . Sin embargo, tengo profundas preocupaciones aquí. Con Big Data, todo el mundo parece estar feliz de sacar algo . Pero, ¿no estamos violando todos los principios estadísticos clásicos, como las pruebas de hipótesis y el muestreo representativo?

Mientras hagamos solo predicciones sobre el mismo conjunto de datos, esto debería estar bien. Entonces, si uso datos de Twitter para predecir el comportamiento del usuario de Twitter, probablemente esté bien. Sin embargo, el uso de datos de Twitter para predecir, por ejemplo, elecciones, descuida completamente el hecho de que los usuarios de Twitter no son una muestra representativa de toda la población. Además, la mayoría de los métodos en realidad no podrán diferenciar entre un verdadero estado de ánimo "de base" y una campaña. Y Twitter está lleno de campañas. Entonces, al analizar Twitter, terminas rápidamente midiendo campañas y bots. (Ver, por ejemplo, "Yahoo predice los ganadores políticos de Estados Unidos"que está lleno de críticas y "el análisis de sentimientos es mucho mejor". Predijeron que "Romney tiene más del 90 por ciento de probabilidades de ganar la nominación y de ganar las primarias de Carolina del Sur" (tenía 28%, mientras que Gingrich tenía 40% en estas primarias).

¿Sabes que otros datos tan grandes fallan ? Recuerdo aproximadamente que un científico predijo que no podías mantener más de 150 amistades. En realidad solo había descubierto un límite de límite en Friendster ...

En cuanto a los datos de Twitter, o en realidad cualquier "gran información" recopilada de la web, creo que a menudo las personas incluso introducen sesgos adicionales por la forma en que recopilan sus datos. Pocos tendrán todo Twitter. Tendrán un cierto subconjunto que analizaron, y este es solo otro sesgo en su conjunto de datos.

Dividir los datos en un conjunto de prueba o para hacer una validación cruzada probablemente no ayuda mucho. El otro conjunto tendrá el mismo sesgo. Y para Big Data, necesito "comprimir" mi información con tanta fuerza que es poco probable que me sobreajuste.

Hace poco escuché esta broma, con el científico de Big Data que descubrió que hay aproximadamente 6 sexos en el mundo ... y puedo imaginar que esto suceda ... "Hombre, mujer, orco, peludo, sí y no".

Entonces, ¿qué métodos tenemos para recuperar cierta validez estadística en el análisis, en particular cuando tratamos de predecir algo fuera del conjunto de datos "big data"?

data-mining dataset large-data validation Anony-Mousse
fuente

Respuestas:

Tus miedos están bien fundados y son perceptivos. Yahoo y probablemente varias otras compañías están haciendo experimentos aleatorios con los usuarios y lo están haciendo bien. Pero los datos de observación están llenos de dificultades. Es una percepción errónea común que los problemas disminuyen a medida que aumenta el tamaño de la muestra. Esto es cierto para la varianza, pero el sesgo se mantiene constante a medida que n aumenta. Cuando el sesgo es grande, una muestra realmente aleatoria muy pequeña o un estudio aleatorizado pueden ser más valiosos que 100,000,000 de observaciones.

Frank Harrell
fuente

Big data es probablemente un área donde la descomposición de la variación de sesgo no es útil: la calidad de los datos y la gestión de datos son más importantes. Esto se debe a que no podemos esperar conocer cada punto de datos o incluso casos especiales, demasiados de ellos

probable que sea

Existen varias técnicas en diseño y análisis experimental que pueden ayudarlo a reducir su sesgo, pero esto siempre se reduce a lo mismo: uno tiene que saber lo que está haciendo. El análisis de Big Data tiene el mismo problema que cualquier otro análisis de datos; sufre de falta de hipótesis.

Un claro ejemplo es la regresión múltiple con selección de variables por pasos. Muy agradable, uno decir, pero con 100 variables leyes estadísticas medidos dictan que algunos de ellos se muestran una relación significativa cuando se evaluó examinado si los respectivos difiere significativamente de coeficiente cero. Entonces, cuantas más variables haya en su conjunto de datos, mayores serán las posibilidades de encontrar dos que muestren alguna relación (sin sentido). Y cuanto mayor sea su conjunto de datos, mayores serán las posibilidades de modelos sin sentido debido, por ejemplo, a un pequeño efecto de confusión. Si prueba muchos modelos (e incluso con solo 10 variables que pueden ser una gran cantidad de modelos), es muy probable que encuentre al menos uno significativo. ¿Significa algo? No.

¿Qué se debe hacer entonces? Usa tu cerebro:

formular una hipótesis antes de recopilar los datos y probar esa hipótesis. Esa es la única forma de asegurarse de que sus estadísticas realmente cuenten una historia.
Use sus covariables para estratificar su muestreo antes de hacer algunas pruebas. Ejemplo estúpido: si tiene 1000 hombres y 100 mujeres en su conjunto de datos, seleccione aleatoriamente 50 cada uno si desea hablar sobre una población promedio. Eso es realmente algo en lo que los grandes datos son útiles: tiene más que suficiente para probar.
Describa a fondo la población de prueba, para que quede claro para qué población se formulan sus conclusiones.
Si utiliza su gran conjunto de datos con fines de exploración, pruebe las hipótesis que se le ocurran durante esta exploración en un conjunto de datos nuevo y diferente , no solo un subconjunto de lo que recopiló. Y pruébelos nuevamente usando todas las precauciones necesarias.

Estas cosas son todas obvias y bien conocidas. Heck, ya en 1984 Rosenbaum y Rubin ilustraron cómo usar los puntajes de propensión para reducir el sesgo en los estudios observacionales, y eso es lo que la mayoría de los grandes conjuntos de datos son: datos observacionales. En trabajos más recientes de Feng et al , también se recomienda el uso de la distancia de Mahalanobis. ¡Y de hecho, uno de mis héroes estadísticos, Cochran, escribió una reseña sobre ese problema ya en 1973! O qué hay de Rubin, quien introdujo el muestreo combinado multivariado y la corrección de regresión ya en 1979. Las publicaciones antiguas se subestiman seriamente y se ignoran con demasiada frecuencia, ciertamente en un campo como las estadísticas.

Todas estas técnicas tienen pros y contras, y uno tiene que entender que reducir el sesgo no es lo mismo que eliminar el sesgo. Pero si eres consciente de:

lo que quieres probar y
como lo estas haciendo

Big data no es una excusa para obtener resultados falsos.

Editado después del comentario (correcto) de @DW que señaló que usé el término 'sobreajuste' en un contexto incorrecto.

Joris Meys
fuente

"Cuanto mayor sea su conjunto de datos, más posibilidades tendrá de un sobreajuste sin sentido". Cuanto mayor sea el conjunto de modelos posibles, mayor será la posibilidad de sobreajuste (todo lo demás es igual). Cuanto mayor sea el conjunto de datos, menor será la posibilidad de sobreajuste (todo lo demás es igual).

@DW ¿Cómo es eso? De hecho, si hay una independencia absoluta en una simulación, hay tantas posibilidades en un modelo significativo con conjuntos de datos pequeños y grandes (la simulación simple lo muestra). Por desgracia, todavía tengo que encontrar un conjunto de datos donde la independencia es perfecta. En el momento en que tiene, por ejemplo, un efecto de confusión muy pequeño, es más probable que los grandes conjuntos de datos den resultados significativos sin sentido que los conjuntos de datos pequeños.

Joris Meys

Buena respuesta: su comentario sobre la búsqueda de efectos significativos proporciona una buena justificación para los métodos de contracción sobre los métodos de "entrada o salida" de la selección del modelo.

probabilidadislogic

@DW está haciendo una declaración sobre el sobreajuste, y parece correcto, particularmente porque cuanto más grande es el conjunto de datos, más posibilidades hay de humillar la validación cruzada en subconjuntos de datos. Joris Meys está haciendo una declaración sobre la significación estadística. Eso también es correcto. Pero en grandes conjuntos de datos, la importancia estadística es discutible: lo importante es el tamaño del efecto porque casi todo es "estadísticamente significativo".

zbicyclist

@zbicyclist Observación muy correcta. Admito que interpreté mal a DW y utilicé el término sobreajuste en un contexto incorrecto. Estoy corregido.

Joris Meys