亚马逊史前最大宕机事件的启示

2011-04-25 12:55:00来源:作者:

  由于亚马逊在弗吉尼亚州(Virginia)北部的云计算中心宕机,包括回答服务Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的一些网站受到了影响。这些网站都依靠亚马逊的这个云计算中心提供服务。

  由于亚马逊在弗吉尼亚州(Virginia)北部的云计算中心宕机,包括回答服务Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的一些网站受到了影响。这些网站都依靠亚马逊的这个云计算中心提供服务。

  亚马逊服务页面显示Virginia北部的数据中心中断。具体如下:

沉思:亚马逊史前最严重宕机事件的启示

  问题似乎从太平洋时间21日1:41开始:我们正在调查由于ESB卷引起的延时和错误,以及US-EAST-1区地EC2实例连接失效问题。

  最晚的一条更新出现在早上6:09:EBS的API错误和卷延迟在受影响的区域任然存在。我们正在继续寻找解决办法。

  这次事件可以说是Amazon史上最严重的宕机事件。

  亚马逊没有表示它将在什么时候修复这个故障的具体时间。北弗吉尼亚州云计算中心是亚马逊经营的许多云计算中心之一。不过,这些系统的设计通常是一个中心宕机不会中断其它的云计算中心,也不会影响使用那个服务的用户。亚马逊没有解释它为什么没有绕过北弗吉尼亚州云计算中心的故障把工作量转移到许多其它的云计算中心。

沉思:亚马逊史前最严重宕机事件的启示

  问题似乎从太平洋时间21日1:41开始:我们正在调查由于ESB卷引起的延时和错误,以及US-EAST-1区地EC2实例连接失效问题。

  最晚的一条更新出现在早上6:09:EBS的API错误和卷延迟在受影响的区域任然存在。我们正在继续寻找解决办法。

  这次事件可以说是Amazon史上最严重的宕机事件。

  亚马逊没有表示它将在什么时候修复这个故障的具体时间。北弗吉尼亚州云计算中心是亚马逊经营的许多云计算中心之一。不过,这些系统的设计通常是一个中心宕机不会中断其它的云计算中心,也不会影响使用那个服务的用户。亚马逊没有解释它为什么没有绕过北弗吉尼亚州云计算中心的故障把工作量转移到许多其它的云计算中心。

沉思:亚马逊史前最严重宕机事件的启示 

  截止4月22日,由于技术原因导致亚马逊计算服务中断事故已经持续了两天,业界分析师表示这次事故将会导致许多公司重新斟酌对远程的、没有控制权的计算机的依赖程度。

亚马逊史前最严重宕机事件启示(一)

  “这是给云计算提了一个醒”,IDC的分析师Matthew Wastwood表示,云计算是指通过因特网来访问位于远程大型数据中心的服务和信息,这些服务和信息是位于不确定的任何位置,就好像是位于云中。“它将引发业界对云计算的重新思考。

  他说,这场思考将很可能会聚焦于什么数据和计算操作应该放到云上,什么是需要放在公司的防火墙内的。

  Eastwood认为,这次事件还将会导致重新审查自己的云服务契约是否合适——是否需要实现备份和恢复服务,包括为不同位置的数据中心支付额外的费用。这是为什么呢?分析师表示,很明显,在本次实践中受打击最大的是一些创业公司,他们为了追求快速发展,没有选择昂贵的备份和容灾服务,从而导致数据不可恢复。

  Amazon五年前创建了它的副业务:通过网络为企业提供数据中心先进的计算资源。今天这家公司成为飞速增长的云计算业务的早期领导者。

  在企业当中,云计算模型快速流行起来,因为它能够让企业把计算工作外包出去,从而避免了成本问题和令人头疼的数据中心运维——只需按需使用,通过网络来获取计算机处理器和存储,而不用去拥有自己的机器或这是操作软件。

  亚马逊有成千上万个企业客户,包括Pfizer和Netflix等,也有大量的创业公司,它们的业务经通常依赖于AWS。收到本次事件影响的包括 Foursquare,一个本地社交网站;Quora,一个问题和答案服务;Reddit,一个新闻分享网站;和BogDoor,一个专门为网络出版商做游戏工具的公司。

  这些公司所报告的问题不尽相同,但是都包括了不能访问数据、服务中断和网站宕机等。

  分析师说,一些已经选择了在Amazon计算机上进行关键操作大公司,倾向于选择付与计算实例同样的钱。视频网站Netfix已经成为Amazon云的大客户,其网站技术的大多数——用户电影队列、搜素工具和喜好等都运行在Amazon数据中心。

  Netfix表示平安渡过此次事件,“那是因为Netfix能够充分利用AWS的冗余云架构”,这防止了任何位置的技术故障,Nstflix的发言人Steve Swasey表示。

  BigDoor是位于西雅图的一个20人左右的创业公司,因为Amazon的失误而受到打击。它有着Amazon的备份和恢复服务,该公司的 CEOKeith Smith表示,但是仅限于Amazon位于Virginia的数据中心。“总有要有一个权衡”,Smith说,注意到费用和开发者的时间将被要求来做更多的事情。

  直到星期五早上,BigDoor的大部分用于支撑游戏和奖励功能的在线出版商的服务已经备份,但是站点任然不可用。

  IDC预测,云计算将会以25%d的年增长率增长,到2014年将会到达555亿美元。主要技术供应商积极推出不同的云产品——一些强调公用模式的服务,如Amazon,还有一些更集中于向企业出售硬件和软件,以帮助企业实现海量计算工作负载的高效性。后面一种情况,企业除了使用云计算,还必须拥有这些基础架构,因此称为私有云。

  Rackspace公司的首席战略官和数据中心服务专家Lew Moorman说,亚马逊的中断事故跟坠机差不多,属于普遍事故中的一种。他指出,然而,飞机旅游比开车旅游还是安全一些的——就好比云计算比公司私有的数据中心要安全。“从世界范围内来看,每天,公司内部都会出现宕机事件。”Moorman表示,“每一段时间都很小,但是他们加起来就是更长的中断时间、金钱损失以及业务损失”。

  Amazon的挫折将给我们一些很值得借鉴的经验,“我们都有兴趣看到亚马逊处理好这件事情的方法,”Moorman表示,Moorman所在的公司Rachapace在云计算领域是亚马逊的竞争对手。


赞助商链接: