Antecedentes: mi doctorado estaba en 'Computational Science'. Mi disertación fue sobre el análisis de datos de difracción de rayos X y el análisis de núcleos perturbados térmicamente en el análisis dinámico general de la densidad de electrones moleculares para la física de estado sólido. La comida para llevar? Estaba muy basado en la ciencia.
En mi opinión, Computational Science es la búsqueda de la ciencia, "... una empresa sistemática que construye y organiza el conocimiento en forma de explicaciones y predicciones comprobables sobre el universo" ( wiki ), a través de medios computacionales.
Sin embargo, la mayoría de los puestos de 'Ciencia de datos' parecen más trabajos de 'análisis de datos'. Es decir, consultas SQL pesadas, utilizando modelos R y Python pre-construidos (regresión lineal, etc.) para sacar conclusiones de datos estructurados y no estructurados.
¿Es la ciencia computacional un superconjunto de la ciencia de datos? ¿Son intercambiables? ¿Es Data Science una verdadera 'ciencia'? ¿Es la ciencia computacional una 'ciencia' real?
fuente
Respuestas:
No son intercambiables.
La ciencia computacional tiende a referirse más a HPC, técnicas de simulación (ecuaciones diferenciales, dinámica molecular, etc.), y generalmente se conoce como computación científica.
La ciencia de datos tiende a referirse al análisis de datos computacionalmente intensivo, como "big data", bioinformática, aprendizaje automático (optimización), análisis bayesianos usando MCMC, etc. Creo que es lo mismo que solía denominarse estadística computacional. Fue la infusión de la informática con estadísticas, pero muchas de las técnicas que se desarrollaron dejaron caer la rigurosa "prueba estadística" de los pescadores (agrupamiento, técnicas de validación cruzada, visualización de datos) pero mantuvieron la parte de datos.
La explicación más clara se me ocurrió cuando estaba enseñando un taller sobre Julia para ciencia de datos y computación científica. Los científicos de datos querían aprender a Julia para hacer un análisis rápido de "datos grandes", es decir, regresiones y otros GLM en datos grandes. Los científicos computacionales (¿computadores científicos?) Querían saber cómo escribir código fácilmente para resolver grandes sistemas lineales en HPC y GPU.
Observe que esas son dos formas de decir exactamente los mismos cálculos, pero con significados muy diferentes. Entonces, en cierto sentido, similar, pero aún distinto (y existe un cruce entre las disciplinas, como el uso del aprendizaje automático para aprender parámetros para PDE a partir de datos).
fuente