"Big data" está en todas partes en los medios. Todos dicen que "big data" es lo más importante para 2012, por ejemplo, la encuesta de KDNuggets sobre temas candentes para 2012 . Sin embargo, tengo profundas preocupaciones aquí. Con Big Data, todo el mundo parece estar feliz de sacar algo . Pero, ¿no estamos violando todos los principios estadísticos clásicos, como las pruebas de hipótesis y el muestreo representativo?
Mientras hagamos solo predicciones sobre el mismo conjunto de datos, esto debería estar bien. Entonces, si uso datos de Twitter para predecir el comportamiento del usuario de Twitter, probablemente esté bien. Sin embargo, el uso de datos de Twitter para predecir, por ejemplo, elecciones, descuida completamente el hecho de que los usuarios de Twitter no son una muestra representativa de toda la población. Además, la mayoría de los métodos en realidad no podrán diferenciar entre un verdadero estado de ánimo "de base" y una campaña. Y Twitter está lleno de campañas. Entonces, al analizar Twitter, terminas rápidamente midiendo campañas y bots. (Ver, por ejemplo, "Yahoo predice los ganadores políticos de Estados Unidos"que está lleno de críticas y "el análisis de sentimientos es mucho mejor". Predijeron que "Romney tiene más del 90 por ciento de probabilidades de ganar la nominación y de ganar las primarias de Carolina del Sur" (tenía 28%, mientras que Gingrich tenía 40% en estas primarias).
¿Sabes que otros datos tan grandes fallan ? Recuerdo aproximadamente que un científico predijo que no podías mantener más de 150 amistades. En realidad solo había descubierto un límite de límite en Friendster ...
En cuanto a los datos de Twitter, o en realidad cualquier "gran información" recopilada de la web, creo que a menudo las personas incluso introducen sesgos adicionales por la forma en que recopilan sus datos. Pocos tendrán todo Twitter. Tendrán un cierto subconjunto que analizaron, y este es solo otro sesgo en su conjunto de datos.
Dividir los datos en un conjunto de prueba o para hacer una validación cruzada probablemente no ayuda mucho. El otro conjunto tendrá el mismo sesgo. Y para Big Data, necesito "comprimir" mi información con tanta fuerza que es poco probable que me sobreajuste.
Hace poco escuché esta broma, con el científico de Big Data que descubrió que hay aproximadamente 6 sexos en el mundo ... y puedo imaginar que esto suceda ... "Hombre, mujer, orco, peludo, sí y no".
Entonces, ¿qué métodos tenemos para recuperar cierta validez estadística en el análisis, en particular cuando tratamos de predecir algo fuera del conjunto de datos "big data"?
fuente
Existen varias técnicas en diseño y análisis experimental que pueden ayudarlo a reducir su sesgo, pero esto siempre se reduce a lo mismo: uno tiene que saber lo que está haciendo. El análisis de Big Data tiene el mismo problema que cualquier otro análisis de datos; sufre de falta de hipótesis.
Un claro ejemplo es la regresión múltiple con selección de variables por pasos. Muy agradable, uno decir, pero con 100 variables leyes estadísticas medidos dictan que algunos de ellos se muestran una relación significativa cuando se evaluó examinado si los respectivos difiere significativamente de coeficiente cero. Entonces, cuantas más variables haya en su conjunto de datos, mayores serán las posibilidades de encontrar dos que muestren alguna relación (sin sentido). Y cuanto mayor sea su conjunto de datos, mayores serán las posibilidades de modelos sin sentido debido, por ejemplo, a un pequeño efecto de confusión. Si prueba muchos modelos (e incluso con solo 10 variables que pueden ser una gran cantidad de modelos), es muy probable que encuentre al menos uno significativo. ¿Significa algo? No.
¿Qué se debe hacer entonces? Usa tu cerebro:
Estas cosas son todas obvias y bien conocidas. Heck, ya en 1984 Rosenbaum y Rubin ilustraron cómo usar los puntajes de propensión para reducir el sesgo en los estudios observacionales, y eso es lo que la mayoría de los grandes conjuntos de datos son: datos observacionales. En trabajos más recientes de Feng et al , también se recomienda el uso de la distancia de Mahalanobis. ¡Y de hecho, uno de mis héroes estadísticos, Cochran, escribió una reseña sobre ese problema ya en 1973! O qué hay de Rubin, quien introdujo el muestreo combinado multivariado y la corrección de regresión ya en 1979. Las publicaciones antiguas se subestiman seriamente y se ignoran con demasiada frecuencia, ciertamente en un campo como las estadísticas.
Todas estas técnicas tienen pros y contras, y uno tiene que entender que reducir el sesgo no es lo mismo que eliminar el sesgo. Pero si eres consciente de:
Big data no es una excusa para obtener resultados falsos.
Editado después del comentario (correcto) de @DW que señaló que usé el término 'sobreajuste' en un contexto incorrecto.
fuente