-
服务内容
通过在客户内网构建数据源,结合集成了阿里云通用大数据总线集采服务(datahub)的sdk实现远程分布式大规模实时数据跨公网的安全加密传输服务。数据进入到数据总线后准实时归档到离线超大规模分布式处理服务MaxCompute作为长周期存储。
数据采集
简介
离线批量数据接入:
离线的数据通道主要通过定义数据来源和去向的数据源和数据集, 供一套抽象化的数据抽取插件、数据写入插件,并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输的目的。
文件数据接入:
批量数据接入包括文件接入与数据库接入两种,文件接入包括从对方 服务器拉取以及对方通过 FTP 传输两种形式;
数据库数据接入:
数据库接入是通过数据集成工具主动拉取并直接写入到指定的离线 和在线存储系统。
实时数据接入:
流数据接入与分发子系统可以处理包括 IOT 物联网流数据、语音流、 视频流、图片流、消息流等一切流式数据的接入与分发工作,可以对各种移动设备,应用软件,网站服务,传感器等产生的大量流式数据进行持续不断的采集,存储和处理。供对流式数据的发布(Publish),订阅(Subscribe)和分发功能,能够轻松构建基于流式数据的分析和应用。
-
数据整理
简介
数据整理主要包括元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、生命周期、数据安全多产品组成的一整套解决方案。
适用场景
服务内容
所有相关的数据量大、数据精度高、需要对数据操作的各种业务需求,快速满足政府、企业各类不同的数据处理场景。
数据上云服务:
提供数据上云、云上数据架构设计等服务。
数据管理服务:
对业务数据、元数据等数据管理统一储存服务。
数据ETL服务:
数据的抽取、转换、加载对应各种业务要求,实现统一调度、统一监控,满足运维可视化需求。
数据生命周期服务:
数据生命周期记录数据从创建和初始存储,到它过时被删除的整个流动过程,对数据进行近线归档、离线归档、销毁和全生命周期监控等服务。
DataWorks是阿里云重要的PaaS平台产品,为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。
DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。
DataWorks对数据进行传输、转换和集成等操作,从不同的数据存储引入数据,并进行转化和开发,最后将处理好的数据同步至其它数据系统。
我们利用DataWorks技术能力为您提供全链路智能大数据及AI开发和治理服务。
datawork的能力: