Un aspirante a científico de datos aquí. No sé nada sobre Hadoop, pero como he estado leyendo sobre Data Science y Big Data, veo muchas conversaciones sobre Hadoop. ¿Es absolutamente necesario aprender Hadoop para ser un científico de
Hadoop es un proyecto de código abierto de Apache que proporciona software para computación distribuida confiable y escalable. El proyecto en sí incluye una variedad de otras adiciones complementarias.
Un aspirante a científico de datos aquí. No sé nada sobre Hadoop, pero como he estado leyendo sobre Data Science y Big Data, veo muchas conversaciones sobre Hadoop. ¿Es absolutamente necesario aprender Hadoop para ser un científico de
Con Hadoop 2.0 y YARN, Hadoop supuestamente ya no está vinculado solo a soluciones de reducción de mapas. Con ese avance, ¿cuáles son los casos de uso para Apache Spark vs Hadoop teniendo en cuenta que ambos se sientan encima de HDFS? He leído la documentación de introducción de Spark, pero tengo...
Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...
Escuché sobre muchas herramientas / marcos para ayudar a las personas a procesar sus datos (entorno de big data). Uno se llama Hadoop y el otro es el concepto noSQL. ¿Cuál es la diferencia en el punto de procesamiento? ¿Son
¿Alguien puede decirme amablemente sobre las compensaciones involucradas al elegir entre Storm y MapReduce en Hadoop Cluster para el procesamiento de datos? Por supuesto, aparte del obvio, que Hadoop (procesamiento a través de MapReduce en un Hadoop Cluster) es un sistema de procesamiento por...
Hay mucha publicidad alrededor de Hadoop y su ecosistema. Sin embargo, en la práctica, donde muchos conjuntos de datos están en el rango de terabytes, ¿no es más razonable usar Amazon RedShift para consultar grandes conjuntos de datos, en lugar de perder tiempo y esfuerzo construyendo un clúster...
En nuestra empresa, tenemos una base de datos MongoDB que contiene una gran cantidad de datos no estructurados, en los que necesitamos ejecutar algoritmos de reducción de mapas para generar informes y otros análisis. Tenemos dos enfoques para seleccionar para implementar los análisis...
Estoy creando prototipos de una aplicación y necesito un modelo de lenguaje para calcular la perplejidad en algunas oraciones generadas. ¿Hay algún modelo de lenguaje entrenado en Python que pueda usar fácilmente? Algo simple como model = LanguageModel('en') p1 = model.perplexity('This is a well...
Al revisar el " Modelo predictivo aplicado ", un revisor declara : Una crítica que tengo de la pedagogía del aprendizaje estadístico (SL) es la ausencia de consideraciones de rendimiento de cómputo en la evaluación de diferentes técnicas de modelado. Con su énfasis en bootstrapping y validación...
Cerrada . Esta pregunta necesita estar más centrada . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que se centre en un problema solo editando esta publicación . Cerrado hace 5 años . Parece que la...
Tengo dos tensor a:[batch_size, dim] b:[batch_size, dim]. Quiero hacer un producto interno para cada par en el lote, generando c:[batch_size, 1], dónde c[i,0]=a[i,:].T*b[i,:].
Revisando la presentación y el material de Summingbird por Twitter, una de las razones que se mencionan para usar los clústeres de Storm y Hadoop juntos en Summingbird es que el procesamiento a través de Storm produce una cascada de errores. Para evitar esta cascada de errores y su acumulación, el...
¿Cuáles son las diferentes clases de problemas de ciencia de datos que se pueden resolver utilizando el modelo de programación