|
|
51CTO旗下网站
|
|
移动端

从数据到洞察 数据湖时代到来

我们经历过数据库、数据仓库、数据湖等不同概念时期,应对了不同种类、量级、形式的数据。随着人工智能的快速发展,以及产业互联网的转型,处理数据的技术也在升级,再加上云计算的计算能力,企业可以快速获取洞察,实现业务创新。

作者:鸢玮来源:51cto|2020-03-25 09:39

【51CTO.com原创稿件】数据,无疑是企业最有价值的资产。数据的价值在于从数据本身提出真正有用的信息,将信息变成知识,从而指导我们行动。从数据到洞察,从而帮助企业进行业务运营,创造更大的价值。

我们经历过数据库、数据仓库、数据湖等不同概念时期,应对了不同种类、量级、形式的数据。随着人工智能的快速发展,以及产业互联网的转型,处理数据的技术也在升级,再加上云计算的计算能力,企业可以快速获取洞察,实现业务创新。

数据复杂性增加

过去,数据只有像数据科学家、数据工程师才会使用,而如今,企业中的每个人都可以是数据的使用者,可以是企业的管理人员,也可以是营销、财务、业务人员,还可以是产品经理、开发者、运营人员等。而数据分析的应用场景也关联到社会的方方面面,例如市场客户服务方面,消费者的细分、客户的忠诚度、客户的流失度等,金融的风险管控和评估,市场促销活动和需求分析,医疗领域的疾病传播、药物发现等,都会涉及到数据分析。

然而,随着社交网络的兴起,电商外卖、娱乐视频、社交媒体、交友恋爱等各种新型互联网应用的普及,致使数据的复杂性也在增加。而企业的数据分析也要求更加具有即时性以及预测性,从而为业务决策带来指导意义。

过去数据都是从业务系统中获取,如今,移动设备、可穿戴设备、物联网设备等不同设备的互联,数据的获取端也变得更加丰富。而用户数量和业务请求量的增长,也导致了数据以指数级速度在增长。数据的获取来源多样、数据量增加、数据格式多元,也给数据本身的缩放性、经济性带来了挑战,企业需要速及时地将数据展示出来,并从中进行分析获取价值。

数据湖的出现

对于数据的处理,最传统的方法就是通过数据库来管理,尤其是交易型数据库。过去,企业的数据都来源于像ERP、CRM等各种业务系统,都是存放在数据库中。后来,各个业务系统应用都会产生并存储大量的数据,而这些数据并不能被其他系统应用所使用,这就产生了数据孤岛。数据仓库应运而生。数据仓库是在数据库的基础之上,将系统应用产生的数据经过一定的分类、提炼、整理后,全部存储在集中式的数据仓库中,各个部门根据自己的需要导出相关数据进行使用分析。

数据仓库只能存储结构化数据,并且需要提前定义好,面对如今大量的非结构化、半结构化数据,以及数据分析的时效性的高要求,数据仓库就显得“力不从心”。数据湖就此诞生。

数据湖的概念有很多,AWS首席云计算企业战略顾问张侠博士则认为,数据湖就是一个中心数据存储的容器,可以处理结构化、非结构化等各种各样的数据,数据量级可以快速缩放,并且进行查询和分析。

张侠举例说道,过去数据汇总后像一条小河,河里的水量是可以预知的,然后设计一个河道,水来后有闸门可以进行处理。但是互联网时代,视频以及移动终端的信息蜂拥而至,我们很难掌握数据的性质,水量大并且来势汹涌,需要耗费大量时间进行处理。于是就需要先将数据存放在湖里,然后通过工具进行查询分析。

数据湖的兼容与灵活

也许有人会认为,数据湖本质上没有技术创新,只是一个概念的拼凑,然而,在数字化转型变革中,数据湖真正可以帮助企业实现技术转型,应对快速发展下的数据需求。

数据湖可以存储海量、多源的数据,业务系统、智能设备等产生的数据都可以以原始的自然数据进行存储,同时支持结构化数据和非结构化数据。此外,结合云计算能力,数据湖可以快速地缩放存储海量数据,并且通过建目录和数据的转移、抽取等工作,将数据归类,然后快速地进行各种各样的分析。

但是,值得注意的是,数据湖存储的是原始的自然数据,自然有些是无用数据,并且还占用存储空间,那么,如何处理无用数据以及缩小存储成本呢?张侠告诉51CTO,如果数据进来的都是垃圾,很可能后续的存储和分析也都是垃圾,因此企业要尽可能地对原始数据进行合理的管控、设计、把握,从而提高数据质量,同时也可以减少原始数据量。此外,企业还可以将冷、热数据分级处理,通过生命周期管理功能根据数据的量级和特点性质进行存储和处理,从而减少数据成本。

张侠指出,由于数据湖对所有数据都可以兼容,并且保持了灵活性,因此特别适用于数据科学家、数据研究人员进行探索性、预测性、研究性的数据查询和分析。

AWS的“数据家族”

一般,数据湖的搭建分为几步:首先先将数据设置好并存储,然后将数据移动加载到不同的地方,清理数据后编写数据目录,配置数据安全性与合规性策略并进行存储管理,在需要分析的时候通过工具调取数据进行分析。为了简化搭建步骤,AWS提供了AWS Lake Formation,将建立数据湖的方法自动化,帮助企业在数天内完成数据的建设工作。张侠透露,AWS Lake Formation会在今年在中国推出。

除了搭建数据湖以外,数据的存储也很重要。在AWS数据湖层面,包括了Amazon S3和AWS Glue。Amazon S3可以存储任何二进位为基础的任何信息,包括结构化和非结构化数据,并且具有11个9的数据持久性,云端三个可用区存储六份,互为备份。在Amazon S3后端是冷存储Amazon Glacier,如果数据不常用,可以存储在Amazon Glacier,降低存储费用。AWS Glue包括两大功能,全托管的数据提取、转换和加载 (ETL) 服务以及元数据目录,用户可以更加容易准备数据,加载数据到数据库、数据仓库和数据湖,并且用于数据分析。AWS Glue服务已经在AWS中国(宁夏)区域正式上线。

除了数据湖相关的产品,AWS还在数据层面提供了更多的功能,包括底层数据的迁移和移动工具,存储不同类型数据的数据存储层,上层有各种分析工具以及机器学习功能。

最底层是数据迁移和移动工具,AWS提供 AWS Database Migration Service数据库迁移服务、AWS Snowball(雪球)可以将数据存储在专用硬盘的装置中快递到AWS、AWS Storage Gateway通过数据门户网关转换数据,AWS Backup数据备份服务。

数据移动的上一层是数据存储层,通过各种数据库来存储各种不同类型的数据,包括Amazon DynamoDB存储键值和文档,Amazon RDS托管型关系数据库,Amazon Aurora云原生数据库,Amazon ElasticCach内存式数据库,Amazon Neptune图形数据库。

在数据湖层之上是分析层,AWS提供了Amazon Redshift数据仓库,Amazon EMR大数据分析,AWS Glue无服务器处理,Amazon Athena交互式分析,Amazon Elasticsearch运维分析,Amazon Kinesis实时分析。

最上层是机器学习,包括Amazon QuickSight图形可视化,Amazon Polly文字转语音功能,Amazon Transcribe语音转文字功能,Amazon SageMaker机器学习工具,帮助用户将数据分析结果进行展现。

AWS期望提供全面、安全、经济高效、易于构建、应用广泛的数据相关的工具和服务,帮助企业应对各种数据的需求,快速将数据转化成洞察,从而加速业务创新。而亚马逊也是AWS的用户。亚马逊曾是Oracle全球数据库最大的用户,使用了7500个数据库,数据量达到75PB,然而由于扩展困难且昂贵,亚马逊在去年11月完成了从Oracle数据库迁移至AWS上相关数据库,数据库成本费用减少了60%,数据库的管理费用减少了70%。此外,亚马逊在内部建立了数据湖名叫Galaxy(银河),整合亚马逊所有数据进行分析,加快了从数据汇总挖掘有用信息的速度同时减少成本。

结语

数据湖的概念从2011年首次提出,如今已经走过九年,如今人工智能的兴起也成为了数据湖快速发展的最大驱动力。张侠认为,在数据湖时代,大数据会变得更加实时、更加面向未来,人工智能成为了关键性的因素。人工智能有能力处理大量数据,使得海量数据的价值有所提高。随着时间的推移,数据分析和人工智能的很大部分都会密切结合。

虽然,数据湖在中国的发展还处于早期阶段,但随着下一代互联网、5G、边缘计算等技术的发展,与之相对应的数据存储和分析的道路也会加速。

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

【责任编辑:鸢玮 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

 敏捷无敌之 Gitlab CI 持续集成

敏捷无敌之 Gitlab CI 持续集成

打破运维与研发壁垒
共5章 | KaliArch

99人订阅学习

秒杀高并发白话实战

秒杀高并发白话实战

主流高并发架构
共15章 | 51CTO崔皓

60人订阅学习

网络排障一点通

网络排障一点通

网络排障及优化调整案例
共20章 | 捷哥CCIE

470人订阅学习

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微