Como hay numerosas herramientas disponibles para las tareas de ciencia de datos, y es engorroso instalar todo y construir un sistema perfecto.
¿Hay una imagen de Linux / Mac OS con Python, R y otras herramientas de ciencia de datos de código abierto instaladas y disponibles para que las personas las usen de inmediato? Un Ubuntu o un sistema operativo liviano con la última versión de Python, R (incluidos IDEs) y otras herramientas de visualización de datos de código abierto instaladas serán ideales. No he encontrado uno en mi búsqueda rápida en Google.
Por favor, avíseme si hay alguno o si alguien de ustedes ha creado uno para usted. Supongo que algunas universidades podrían tener sus propias imágenes de VM. Por favor comparta dichos enlaces.
Respuestas:
Hay otra opción que popular recientemente: docker ( https://www.docker.com ). Docker es un contenedor y le permite crear / mantener un entorno de trabajo muy fácil y rápido.
Espero que eso te ayude.
fuente
Si está buscando una máquina virtual con un montón de herramientas preinstaladas, pruebe Data Science Toolbox .
fuente
docker-machine regenerate-certs
que espero que ayuden :)Si bien las imágenes de Docker ahora están más de moda, personalmente considero que la tecnología de Docker no es fácil de usar, incluso para usuarios avanzados. Si está de acuerdo con el uso de imágenes de VM no locales y puede usar Amazon Web Services (AWS) EC2 , considere imágenes enfocadas en R para proyectos de ciencia de datos, preconstruidos por Louis Aslett. Las imágenes contienen versiones muy recientes, si no las más recientes, de Ubuntu LTS , R y RStudio Server . Puedes acceder a ellos aquí .
Además de los componentes principales que he enumerado anteriormente, las imágenes también contienen muchas herramientas útiles de ciencia de datos integradas. Por ejemplo, las imágenes son compatibles con LaTeX, ODBC, OpenGL, Git, bibliotecas numéricas optimizadas y más.
fuente
¿Probaste la VM QuickStart de Cloudera ?:
Me resultó muy fácil ejecutarlo e incluye software de código abierto como Mahout y Spark .
fuente
Hoy utilicé este repositorio de https://github.com/sequenceiq/docker-spark y lo construí con docker. es una chispa de construcción de imagen de docker basada en la imagen de hadoop del mismo propietario. si usa spark, tiene una API de Python llamada pyspark http://spark.apache.org/docs/latest/api/python/
fuente