AWS宕机11个小时,都是光纤被挖断惹的祸?

原创
云计算
2019年6月2日凌晨两点开始,AWS北京区域出现大面积瘫痪,据称是因为CN-NORTH-1地区有多处光缆在夜晚道路施工中被切断,导致该区域的第一个可用区中EC2实例不能访问,同时不能在整个CN-NORTH-1区域中新建EC2实例。

【51CTO.com原创稿件】2019年6月2日凌晨两点开始,AWS北京区域出现大面积瘫痪,据称是因为CN-NORTH-1地区有多处光缆在夜晚道路施工中被切断,导致该区域的***个可用区中EC2实例不能访问,同时不能在整个CN-NORTH-1区域中新建EC2实例。

AWS

Amazon Elastic Compute Cloud(Beijing)的处理进展如下:

02:38,我们正在调查CN-NORTH-1的网络连接问题。

04:17,我们正在调查CN-NORTH-1的所有可用区的EC2 API错误率上升的问题以及启动新的EC2实例失败的问题。我们也在调查CN-NORTH-1区域EBS API的错误率上升和延迟增大的问题。

06:36,我们已经找到了CN-NORTH-1区所有可用区中EC2 API和EBS API错误率上升的问题,以及新的EC2实例启动失败的问题的原因,我们正在修复这个问题。

09:27,我们已经确定了CN2-NORTH-1区域内所有可用区域内新EC2实例的EC2和EBS API错误率增加以及启动失败的原因,并正在努力解决问题。因为网络连接导致无法成功完成Runlnstances API请求,将影响CN-NORTH-1所有区域。对其中一个可用区中的现有运行实例没有任何影响。

14:56,在北京时间,2:00AM到13:48PM之间,在CN-NORTH-1区域,客户遇到在所有区域中EC2 API调用失败率增高以及无法新建实例的故障,目前故障已经解决,服务恢复正常。

回顾去年的AWS故障事件:3月,亚马逊AWS网络服务出现问题,故障时间不详。5月,北弗吉尼亚地区的数据中心出现硬件故障,AWS再次出现连接问题,持续时间30分钟。7月,AWS管理控制台故障,故障持续近6小时。11月,AWS韩国服务器中断,故障时间持续一个多小时。相比之下,此次的从2点到14点,11个多小时的故障不得不称为最近AWS宕机事件中的大事。

AWS此次的恢复时间为什么长达11个多小时?这不得不让人联想到AWS没有做好网络冗余设计。网络冗余设计主要通过重复设置网络链路和网络设备冗余措施,并制定网络重要系统和数据备份策略等。网络链路冗余指为了确保业务正常运转,除配置主线路外,同时做好第二种、第三种线路的部署。

据悉,AWS北京区域使用的是光环新网的数据中心,该公司在北京拥有酒仙桥、太和桥、光环新谷、东直门、房山和亦庄6个数据中心,每个都拥有高达100G的BGP总出口带宽,多运营商通信链路。光环新网并未对此事作出回应。

正值6.18中国电商大促阶段,不仅亚马逊中国官网(www.amazon.cn)的页面一度崩溃,VIPKID、流利说、三星应用商店等用户均受到不同程度的影响。笔者也是VIPKID的用户,所幸当天并未约课,只是无法完成课后作业及预习课程。而约了课的家长就比较抓狂,取消已约课程,重新约课…

虽然云服务不可能保证100%不出现问题,但是扎扎实实做好灾备,把宕机带来的影响降到***是云厂商的重要职责。

对于用户来说,除了选择更安全的云服务外,使用多家云服务,实施多云战略也是未来的重要方向。

首先,优化了业务负载。由于根据企业负载的不同,为之匹配不同厂商间最适合的云技术,可以明显提高企业业务运转效率。

第二,确保服务的可靠性。再可靠的云服务也不能保证100%的安全,即使云计算提供商在多个区域提供数据中心服务,并可以确保安全的冗余级别,但仍然会存在各种突出事件,影响云服务的可靠性。而通过实施在多个云平台之间故障转移,无论发生什么类型的中断,都可以尽快完成灾备,保持应用程序的运行。

国际数据公司 IDC 的一项预测表明:“截止到2020年,90%以上的企业将使用多个云服务和平台”。著名研究机构 451 Research 公司的调查也显示:“IT 的未来是多云和混合云,69%的受访企业表示,计划到2019年采用各种类型的多云环境。”

***笔者还想说,光缆、管道等基础设施的保护也应受到重视,轻而易举的被破坏,在当今的云时代,付出的代价太大了!

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑:赵立京 来源: 51CTO
相关推荐

2009-08-01 15:47:04

网线故障

2014-07-18 14:10:07

WIFI华为

2015-05-28 18:47:55

宕机支付宝断网

2009-01-07 09:22:00

2010-09-14 11:29:43

谷歌

2023-12-24 22:33:32

宕机Twitter马斯克

2018-09-29 08:36:55

宕机停机局域网

2020-08-17 17:47:30

内存技术测试

2009-07-18 16:43:09

光纤链路故障接线端面脏污

2010-01-12 09:25:17

Windows 7死机系统特效

2009-04-27 13:46:30

网络管理拷贝故障

2020-12-02 06:30:52

Nginx前缀FastDFS

2015-05-28 18:37:26

2023-09-18 07:21:18

装机误区主机

2019-03-26 18:58:37

腾讯云宕机故障

2011-01-10 15:50:40

Hotmail系统故障脚本

2010-11-08 13:57:46

谷歌云计算

2015-06-09 14:45:54

2015-05-28 09:52:21

光纤支付宝

2021-09-30 22:37:01

手机内存技术
点赞
收藏

51CTO技术栈公众号