远离“宕机” 让云主机更靠谱

2015-07-23 13:28:55来源:威易网作者:

在云计算风起云涌的大背景下,用户热衷于选择IaaS基础设施服务,主要原因是什么?无需单独购买服务器等硬件资源,直接在所购买的云平台部署应用环境,省去了大量的IT基础投资,也可以随时获取更弹性的扩展资源。简单的说,就是简单、方便、可靠、成本低。

在云计算风起云涌的大背景下,用户热衷于选择IaaS基础设施服务,主要原因是什么?无需单独购买服务器等硬件资源,直接在所购买的云平台部署应用环境,省去了大量的IT基础投资,也可以随时获取更弹性的扩展资源。简单的说,就是简单、方便、可靠、成本低。

那么,选择了云主机,是不是云服务的稳定性和可用性就有保证了?用户就可以高枕无忧了?如果你这么认为,那么就大错特错了。

云主机非常态宕机下的用户常态反映

从理论上说,云主机是在一组集群服务器上划分出的多个类似独立主机的部分,集群中的每台机器都有云主机的一个镜像备份。当其中一台机器出现故障时,系统会自动访问其他机器上的备份。所以云主机在数据安全、运行稳定性方面比传统的VPS和服务器更强,而且因为它是虚拟的,费用比独立服务器要便宜得多,所以云主机性价比还是很高的。

然而云主机因为各种原因出现意外故障而死机的现象却时有发生。今年6月6日,青云的服务商睿江科技机房因雷暴天气引发电力故障,导致青云广东1区全部硬件设备意外关机重启,青云官网及控制台短时无法访问,部署于GD1的用户业务暂时不可用。6月21日,阿里云香港节点出现全线宕机,业务中断超过12小时,甚至有部分用户数据出现损毁,在业界引发轩然大波。

而在国外,云主机宕机事件一样触目惊心。单单2014年8月,全球发生了几起大范围的宕机事件,为这些云服务商带来了巨大损失:AWS先后发生两次宕机,导致其损失700万美元;苹果iCloud宕机致使300万用户受到影响;谷歌全面宕机,5分钟全球流量下降40%。

纵观国内外云主机宕机的情况,宕机的原因可以说是非常态的,是各种各样的客观因素造成的,绝大多数是不可控的。但是对用户的影响却是致命的,损失巨大,即使中断1分钟客户都是难以忍受的,客户无法接受宕机以及其造成的损失却是常态的。

实时监控 及时预警

云主机宕机的元凶是包括CPU、内存、硬盘在内的服务器硬件以及引起服务器故障的机房设施。远离宕机,除了云主机服务商采用必要保证措施以外,有没有第三方机构对云主机的性能进行评测,让用户对云主机稳定性和可用性有一个客观的认知呢?答案是肯定的。中国软件网、海比研究与国内领先的应用性能管理服务商云智慧公司合作,针对目前市场上主流的服务商的云主机,在业内首次推出云主机性能评测报告。

此次性能评测覆盖了百度云、美团云、腾讯云、金山云、阿里云、青云、西部数码、首都在线、ucloud、华为云、天翼云、安畅网络、沃云等目前市场上国内主流云服务商。此次评测采用了统一的硬件配置,所选择的云主机基础硬件环境均为8核CPU(腾讯、美团、青云为虚拟机CPU)、8GB内存、2M带宽,系统为Linux 2.6.32的64位版本。通过云智慧监控宝部署在全国范围的数百个监测点,真实模拟用户访问行为,对云主机性能从服务器监控、网站监控等维度进行全方位检测。

此次评测中服务器性能监控是指针对服务器系统的运行状态以及各项指标的监控,是的包括CPU平均使用率、CPU负载、内存平均使用率、磁盘I/O写入平均流量、磁盘I/O读取平均流量等。7月6日当天监测数据如下表所示。

\

怎么看这些数据呢?正常的服务器工作状态是CPU使用率在50%-60%之间,内存在50%-70%之间,超过这个极限值,运维人员就需特别关注,且要发出预警。CPU负载就是CPU的工作量,多核CPU能够并行处理的事务的数量应该是个数与核数的乘积,CPU的负载数最好不要超过这个数值。CPU负载太高,即目前工作量已经接近于CPU的最大计算能力了,应该发出预警。而硬盘I/O是云主机性能的最大瓶颈,它不仅会影响高并发时服务器的响应速度,更会对数据库性能的产生影响。当I/O性能大幅降低时,应该及时发出预警,进行必要的干预。

目前,云智慧的监控宝可以根据服务等级协议设置告警,只要指标超过设定值,监控宝就可以第一时间向用户发送告警通知。监控宝覆盖的告警通知方式包括邮件、短信、App Push、电话语音、URL回调通知等。

在本次评测中,我们在国内主要的服务商的云主机上都部署监控宝,分别对其以上指标做了详细的采集和数据分析,用真实的数据向外界展示了当前国内的云服务商的运行质量,是用户选择合适的云主机提供商、杜绝宕机、减少损失的可靠参考。

关键词:云主机