Estudio de caso de Big Data o ejemplo de caso de uso

13

He leído muchos blogs \ artículos sobre cómo diferentes tipos de industrias están utilizando Big Data Analytic. Pero la mayoría de estos artículos no menciona

  1. Qué tipo de datos usaron estas compañías. ¿Cuál fue el tamaño de los datos?
  2. ¿Qué tipo de herramientas tecnológicas utilizaron para procesar los datos?
  3. ¿Cuál era el problema al que se enfrentaban y cómo la información que obtuvieron los datos les ayudó a resolver el problema?
  4. Cómo seleccionaron la herramienta \ tecnología para satisfacer sus necesidades.
  5. Qué tipo de patrón identificaron a partir de los datos y qué tipo de patrones buscaban a partir de los datos.

Me pregunto si alguien puede darme una respuesta a todas estas preguntas o un enlace que al menos responda algunas de las preguntas. Estoy buscando un ejemplo del mundo real.

Sería genial si alguien comparte cómo la industria financiera está utilizando Big Data Analytic.

Brown_Dinamite
fuente

Respuestas:

14

Los medios de comunicación tienden a usar "Big Data" de manera bastante flexible. Los proveedores suelen proporcionar estudios de casos sobre sus productos específicos. No hay mucho para las implementaciones de código abierto, pero se mencionan. Por ejemplo, Apache no va a pasar mucho tiempo construyendo un estudio de caso sobre hadoop, pero proveedores como Cloudera y Hortonworks probablemente lo harán.

Aquí hay un ejemplo de estudio de caso de Cloudera en el sector financiero.

Citando el estudio:

Un importante conglomerado mundial de servicios financieros utiliza Cloudera y Datameer para ayudar a identificar la actividad comercial deshonesta. Los equipos dentro del grupo de gestión de activos de la empresa están realizando análisis ad hoc sobre las fuentes diarias de información de precios, posición y pedidos. Tener un análisis ad hoc de todos los datos detallados permite al grupo detectar anomalías en ciertas clases de activos e identificar comportamientos sospechosos. Los usuarios dependían previamente únicamente de herramientas de hoja de cálculo de escritorio. Ahora, con Datameer y Cloudera, los usuarios tienen una plataforma poderosa que les permite examinar más datos más rápidamente y evitar posibles pérdidas antes de comenzar.

.

Un banco minorista líder está utilizando Cloudera y Datameer para validar la precisión y calidad de los datos según lo exige la Ley Dodd-Frank y otras regulaciones. Al integrar los datos de préstamos y sucursales, así como los datos de gestión de patrimonio, la iniciativa de calidad de datos del banco es responsable de garantizar que cada registro sea exacto. El proceso incluye someter los datos a más de 50 controles de calidad y sanidad de datos. Los resultados de esas comprobaciones tienen tendencia a lo largo del tiempo para garantizar que las tolerancias para la corrupción de datos y los dominios de datos no cambien negativamente y que los perfiles de riesgo que se informan a los inversores y las agencias reguladoras sean prudentes y cumplan con los requisitos reglamentarios. Los resultados se informan a través de un panel de control de calidad de datos al Director de Riesgos y al Director de Finanzas,

No vi ningún otro estudio relacionado con finanzas en Cloudera, pero no busqué mucho. Puedes echar un vistazo a su biblioteca aquí.

Además, Hortonworks tiene un estudio de caso sobre estrategias de negociación en el que vieron una disminución del 20% en el tiempo que llevó desarrollar una estrategia al aprovechar K-means, Hadoop y R.

Cada color indica un grupo de estrategias con probabilidad similar de ganancias y pérdidas.

cómo se mejoró el sistema de comercio mediante el uso de Hadoop (Hortonworks Data Platform) y el algoritmo k-means

Estos no responden todas sus preguntas. Estoy bastante seguro de que ambos estudios cubrieron la mayoría de ellos. No veo nada sobre la selección de herramientas específicamente. Me imagino que los representantes de ventas tuvieron mucho que ver con obtener el producto general en la puerta, pero los científicos de datos aprovecharon las herramientas con las que se sentían más cómodos. No tengo mucha información sobre esa área en el espacio de big data.

Steve Kallestad
fuente
1
Gracias. Esto es muy útil. Sé que es un espacio de error y no hay una respuesta correcta. Estoy muy interesado en saber cómo se seleccionan las herramientas y la tecnología de big data para satisfacer sus necesidades. No estoy marcando esto como la respuesta correcta por ahora, pero ciertamente merece muchos votos UP. Saludos :)
Brown_Dynamite
6

Financial Services es un gran usuario de Big Data e innovador también. Un ejemplo es el comercio de bonos hipotecarios. Para responder a sus preguntas al respecto:

Qué tipo de datos usaron estas compañías. ¿Cuál fue el tamaño de los datos?

  • Largas historias de cada hipoteca emitida durante los últimos años, y pagos mensuales contra ellas. (Miles de millones de filas)
  • Largas historias de historiales crediticios. (Miles de millones de filas)
  • Índices de precios de la vivienda. (No tan grande)

¿Qué tipo de herramientas tecnológicas utilizaron para procesar los datos?

Varía. Algunos usan soluciones internas creadas en bases de datos como Netezza o Teradata. Otros acceden a los datos a través de sistemas proporcionados por los proveedores de datos. (Corelogic, Experian, etc.) Algunos bancos utilizan tecnologías de bases de datos de columnas como KDB o 1010data.

¿Cuál era el problema al que se enfrentaban y cómo la información que obtuvieron los datos les ayudó a resolver el problema?

La cuestión clave es determinar cuándo los bonos hipotecarios (valores respaldados por hipotecas) pagarán por adelantado o no pagarán. Esto es especialmente importante para los bonos que carecen de la garantía del gobierno. Al profundizar en los historiales de pago, los archivos de crédito y comprender el valor actual de la casa, es posible predecir la probabilidad de un incumplimiento. Agregar un modelo de tasa de interés y un modelo de prepago también ayuda a predecir la probabilidad de un prepago.

Cómo seleccionaron la herramienta \ tecnología para satisfacer sus necesidades.

Si el proyecto es impulsado por TI interna, generalmente se basa en un gran proveedor de bases de datos como Oracle, Teradata o Netezza. Si es impulsado por los quants, es más probable que vayan directamente al proveedor de datos o a un sistema "All in" de terceros.

Qué tipo de patrón identificaron a partir de los datos y qué tipo de patrones buscaban a partir de los datos.

100,000,000simiyonortesolworththuntunmetrootunortet,orunslyottlmiuns

MathAttack
fuente
¿Ha visto alguna instancia en la que se utilizan técnicas de aprendizaje automático para el modelado de prepago? Es decir, redes neuronales, bosque aleatorio, GBM?
Josh
5

Kaggle tiene un breve resumen de aplicaciones:

Revolution Analytics publicó muchos estudios de casos generales, hojas de datos y documentos técnicos:

Para aplicaciones en ciencias e ingeniería, puede consultar estudios de casos de Nutonian :

Analyx contó a clientes potenciales sobre aplicaciones en el comercio:

El Financial Times publicó una colección de historias sobre aplicaciones comerciales de big data:

McKinsey describió las aplicaciones en 2011:

Otras firmas consultoras hicieron informes similares.

Gartner creó Hype Cycle para Big data:

ingrese la descripción de la imagen aquí

Sin mencionar los estudios de casos y los libros blancos de otras compañías que desean promocionar sus productos.

Anton Tarasenko
fuente
1

Eche un vistazo a los informes de datos gratuitos de O'Reilly . Puede encontrar informes sobre Banca y Fintech, Deportes, Moda, Música, Salud, Petróleo y Gas, etc.

Tenga en cuenta que el informe de McKinsey mencionado anteriormente es un informe clásico y de lectura obligatoria.

Hamideh
fuente