Estoy seguro de que la ciencia de datos como se discutirá en este foro tiene varios sinónimos o al menos campos relacionados donde se analizan datos grandes.
Mi pregunta particular es con respecto a la minería de datos. Tomé una clase de posgrado en minería de datos hace unos años. ¿Cuáles son las diferencias entre la ciencia de datos y la minería de datos y, en particular, qué más debería tener en cuenta para llegar a ser competente en minería de datos?
data-mining
definitions
demongolem
fuente
fuente
Respuestas:
@statsRus comienza a sentar las bases para su respuesta en otra pregunta /datascience/1/what-characterises-the-difference-between-data-science-and-statistics :
Definición
La minería de datos puede verse como un elemento (o conjunto de habilidades y aplicaciones) en el conjunto de herramientas del científico de datos. Me gusta cómo separa la definición de minería de la colección en una especie de jerga específica del comercio.
Sin embargo, creo que la minería de datos sería sinónimo de recopilación de datos en una definición coloquial inglés-estadounidense.
En cuanto a dónde ir para llegar a ser competente? Creo que esa pregunta es demasiado amplia como se dice actualmente y recibiría respuestas que se basan principalmente en la opinión. Quizás si pudiera refinar su pregunta, sería más fácil ver lo que está preguntando.
fuente
Lo que @Clayton publicó parece correcto para mí, para esos términos, y para la "minería de datos" es una herramienta del científico de datos. Sin embargo, realmente no he usado el término "recopilación de datos", y no me parece sinónimo de "minería de datos".
Mi propia respuesta a tu pregunta: no , los términos no son los mismos. Las definiciones pueden estar flojas en este campo, pero no he visto esos términos usados indistintamente. En mi trabajo, a veces los usamos para diferenciar entre objetivos o metodologías. Para nosotros, la ciencia de datos se trata más de probar una hipótesis, y típicamente los datos se han recopilado solo para ese propósito. La minería de datos tiene más que ver con examinar los datos existentes, buscar estructura y quizás generar hipótesis. La minería de datos puede comenzar con una hipótesis, pero a menudo es muy débil o general, y puede ser difícil de resolver con confianza. (Excave lo suficiente y encontrará algo , aunque puede resultar pirita).
Sin embargo, también hemos utilizado "ciencia de datos" como un término más amplio, para incluir "minería de datos". También hablamos de "modelado de datos", que para nosotros consiste en encontrar un modelo para un sistema de interés, basado en datos, así como otros conocimientos y objetivos. A veces eso significa tratar de encontrar las matemáticas que explican el sistema real, y a veces significa encontrar un modelo predictivo que sea lo suficientemente bueno para un propósito.
fuente
Mi respuesta sería no. Considero que la minería de datos es uno de los campos diversos en la ciencia de datos. La minería de datos se considera principalmente para generar preguntas en lugar de responderlas. A menudo se denomina "detectar algo nuevo", en comparación con la ciencia de datos, donde el científico de datos intenta resolver problemas complejos para poder alcanzar sus resultados finales. Sin embargo, ambos términos tienen muchos puntos en común entre ellos. Por ejemplo ... si tiene una tierra agrícola donde desea encontrar las plantas afectadas ... Aquí la minería de datos espaciales juega un papel clave en este trabajo. Hay buenas posibilidades de que pueda terminar no solo descubriendo las plantas afectadas en la tierra, pero también en la medida en que se ven afectados ... esto es algo que no es posible con la ciencia de datos.
fuente
Hay muchas superposiciones entre la minería de datos y la ciencia de datos. Diría que las personas con el rol de minería de datos se preocupan por la recopilación de datos y la extracción de características de conjuntos de datos no filtrados, no organizados y principalmente sin procesar / salvajes. Algunos datos muy importantes pueden ser difíciles de extraer, no a los problemas de implementación, sino porque pueden tener artefactos extraños.
P.ej. si necesitaba que alguien revise los datos financieros de las declaraciones de impuestos escritas en los años 70 que fueron escaneadas y leídas por máquinas para averiguar si las personas ahorraron más en seguros de automóviles; un minero de datos sería la persona que debería obtener.
Si necesitaba que alguien examinara la influencia del perfil de Twitter de Nike en los tweets de Brasil e identificara las características positivas clave del perfil, buscaría un científico de datos.
fuente