故障影响有多严重
6月27日晚,北京国贸写字楼2座灯火通明。林晓宇疾步往返于运维部与研发部的走廊上,表情有些凝重。
一场因阿里云故障引发的突发事件,导致他所在的互联网金融公司几近瘫痪。在运维部工作近一年,林晓宇首次受到公司各层级领导的“关注”。
“很多部门的Leader都打电话,问我怎么回事”,面对质疑,林晓宇很是无奈。他回忆说,事发时,业务数据无法读取,交易短暂停滞,客服投诉量激增……运维部和开发部启动了自检,因服务器无法登录及文件存储NAS不能服务,问题也被很快确认:阿里云出了问题。
不能坐以待毙!
林晓宇所在的运维部启动了应急预案:在线服务失效,转为本地服务的Kubernetes容器集群,结果失效。采取手动更改,对象存储OSS失效,SLS失效……
留给他的,只有等待。
在等待的过程中,林晓宇一直琢磨:宣传时说“提供99.9%可靠性”,难道我们就是那0.1%?
惊魂一小时
根据阿里云官方描述,其在中国公共云市场占有率超过2至5名的总和,目前中国有40%的网站都在阿里云上运营,一半独角兽公司也在使用阿里云。以这个体量计算,即便是那0.1%的用户,因为不明原因“宕机”所产生的焦虑感,也足以在社交网络上掀起轩然大波。
当天下午4点半开始,不断有“阿里云宕机”的消息在微博和微信群中传出。用户们指出,故障原因集中表现在官方网站和控制台无法访问。而当时,阿里云内部人员向新浪科技提供的第一份回应是账户登陆异常,云服务器不受影响,此次故障并非宕机。
但官方回应迅速发酵出第二轮不满情绪。大量用户在新浪科技发出的微博下面投诉其他功能也被波及——和林晓宇一样,除了无法登陆之外,OpenSearch失效,ONS失效,NAS失效,OSS失效——简单来说,除了登陆环节异常外,阿里云的多个产品在该时段均无法使用。
最终,阿里云在下午发布故障公告,确认了除部分管控功能外,MQ、NAS、OSS等产品的部分功能出现访问异常。此次事故从16点21分至17点30分,时长约一小时。
一位用户点评道:中国互联网半壁江山,惊魂整整一小时!
半壁江山还是0.1%?
郭宁显然在另外半壁江山里。27日晚高峰,他走出望京的写字楼,挤上地铁,打开手机刷了眼新闻,才知道这天下午阿里云“挂”了。
“什么异常都没有。”郭宁目前在一家IT公司负责开发团队,产品均托管在阿里云上,涉及ESC和其他多个云服务。但他向新浪科技表示,自己的产品没有受到任何影响。“网上那些问题一个都没碰到。”
实际上,不只是郭宁,新浪科技接触到的多名开发人员中,大多数都和郭宁一样,在宕机期间内毫无感觉。而唱吧、e代驾等使用阿里云的移动互联网应用,也几乎没有发出过抱怨的声音。
不过,对于那些“惊喜”一小时的用户来说,麻烦是切切实实的存在。据新浪科技不完全统计,此次事故受影响的范围十分广泛,包括电商、互金、通讯语音及教育行业等。阿里云客服人员表示,“此次属于大面积故障,基本上平台大部分业务全挂了”,但具体影响范围及用户数量无法确定。
更麻烦的还在后面。
林晓宇说,虽然故障后来得到了排除,但部门需要进行业务数据修复,这无疑增加了工作量。