Estoy tratando de entender cómo todos los componentes de "big data" juegan juntos en un caso de uso del mundo real, por ejemplo, hadoop, monogodb / nosql, storm, kafka, ... Sé que esta es una gama bastante amplia de herramientas utilizadas para diferentes tipos, pero me gustaría conocer más acerca de su interacción en las aplicaciones, por ejemplo, el aprendizaje automático para una aplicación, una aplicación web o una tienda en línea.
Tengo visitantes / sesión, datos de transacciones, etc. y los guardo; pero si quiero hacer recomendaciones sobre la marcha, no puedo ejecutar trabajos de mapa lento / reducir para eso en alguna gran base de datos de registros que tengo. ¿Dónde puedo obtener más información sobre los aspectos de infraestructura? Creo que puedo usar la mayoría de las herramientas por su cuenta, pero conectarlas entre sí parece ser un arte en sí mismo.
¿Hay ejemplos públicos / casos de uso, etc. disponibles? Entiendo que las canalizaciones individuales dependen en gran medida del caso de uso y del usuario, pero solo ejemplos probablemente me serán muy útiles.
Respuestas:
Para comprender la variedad de formas en que el aprendizaje automático puede integrarse en las aplicaciones de producción, creo que es útil mirar proyectos de código abierto y artículos / publicaciones de blog de compañías que describen su infraestructura.
El tema común que tienen estos sistemas es la separación del entrenamiento del modelo de la aplicación del modelo. En los sistemas de producción, la aplicación del modelo debe ser rápida, del orden de 100s de ms, pero hay más libertad en la frecuencia con la que se deben actualizar los parámetros del modelo (o equivalentes).
Las personas usan una amplia gama de soluciones para la capacitación e implementación de modelos:
Cree un modelo, luego expórtelo e impleméntelo con PMML
Cree un modelo en MapReduce y acceda a valores en un sistema personalizado
Utilice un sistema en línea que permita actualizar continuamente los parámetros del modelo.
fuente
Una de las explicaciones más detalladas y claras de la configuración de una tubería analítica compleja es de la gente de Twitch .
Proporcionan motivaciones detalladas de cada una de las opciones de arquitectura para la recolección, el transporte, la coordinación, el procesamiento, el almacenamiento y la consulta de sus datos.
Lectura convincente! Encuéntralo aquí y aquí .
fuente
Airbnb y Etsy publicaron recientemente información detallada sobre sus flujos de trabajo.
fuente
El Capítulo 1 de Practical Data Science with R ( http://www.manning.com/zumel/ ) tiene un gran desglose del proceso de ciencia de datos, incluidos los roles del equipo y cómo se relacionan con tareas específicas. El libro sigue los modelos establecidos en el capítulo haciendo referencia a qué etapas / personal realizaría esta o aquella tarea en particular.
fuente