|
|
51CTO旗下网站
|
|
移动端

阿里巴巴建成全球超大规模数据中心内“RDMA高速网”,以支撑人工智能科学计算

记者了解到,尽管大多数云计算厂商已经在其数据中心内部部署RDMA(Remote Direct Memory Access)网络,但阿里巴巴已经抢先一步:其数据中心集群内的RDMA网络规模居于全球领先地位,目前已有数十个数据中心支持RDMA网络,延时可显著降低90%,最大程度满足人工智能、科学计算等场景需求。

作者:佚名来源:51CTO|2019-03-14 09:41

【大咖·来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》

近日,记者了解到,尽管大多数云计算厂商已经在其数据中心内部部署RDMA(Remote Direct Memory Access)网络,但阿里巴巴已经抢先一步:其数据中心集群内的RDMA网络规模居于全球领先地位,目前已有数十个数据中心支持RDMA网络,延时可显著降低90%,***程度满足人工智能、科学计算等场景需求。

阿里云
阿里云北京冬奥云数据中心

当用户在阿里云选择高性能云盘ESSD、云原生数据库POLARDB、云超算SCC、机器学习PAI等产品时,均运行在RDMA网络之上。也正因为如此,这些广受欢迎的创新产品背后已经共享了网络的技术红利。

RDMA是目前业内***的高性能网络技术,能大大节约数据传输时间,被认为是提高人工智能、超算等效率的关键。数据显示,在未使用RDMA网络时,语音识别训练每次迭代任务时长为650ms至700ms,其中通信时延就占400ms。

为了提高数据传输速度、满足用户需求,亚马逊、微软等主要云厂商都在投入该技术的研发和部署,但鲜有企业实现RDMA在数据中心的大规模应用。

在2016年,阿里巴巴开始投入专项研究,以改造RDMA、提高传输性能。从网卡底层开始设计满足大规模应用的网络,并结合阿里自研交换机实现性能***化,最终建成全球***规模数据中心内的“高速网”,使得集群极大地突破了传输速度瓶颈,并将时延显著降低90%。

以2018年天猫双11为例,基于RDMA网络技术的云存储和电商数据库服务器可以从容地应对峰值流量考验。

而上汽集团乘用车也正采用加入高速RDMA互联支持的云超算SCC集群进行模拟仿真,整体提升效率25%。

“RDMA网络已经成为人工智能、科学计算等高性能计算、存储业务的必备技术,我们将继续探索更高带宽的网络技术,未来将部署 100G高速网络,为企业提供稳定、低延时的网络服务。” 阿里巴巴基础设施***网络架构师蔡德忠向记者表示。

作为全球前三、国内***的云服务商,阿里云在全球19个地域拥有56个可用区,网络总带宽已达到 PB 级别超大规模,目前正在测试400G 网络的研发,推出的 400G QSFP-DD行业标准已受到全球企业广泛支持。

【责任编辑:赵立京 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

16招轻松掌握PPT技巧

16招轻松掌握PPT技巧

GET职场加薪技能
共16章 | 晒书包

289人订阅学习

20个局域网建设改造案例

20个局域网建设改造案例

网络搭建技巧
共20章 | 捷哥CCIE

645人订阅学习

WOT2019全球人工智能技术峰会

WOT2019全球人工智能技术峰会

通用技术、应用领域、企业赋能三大章节,13大技术专场,60+国内外一线人工智能精英大咖站台,分享人工智能的平台工具、算法模型、语音视觉等技术主题,助力人工智能落地。
共50章 | WOT峰会

0人订阅学习

读 书 +更多

非常网管——网络服务

本书使用通俗易懂的语言,通过大量的实例,从实际应用的角度出发,全面系统地介绍了网络服务操作系统平台、电子邮件系统、Web站点和FTP站点...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO播客