2月15日,美国当地时间周一,谷歌服务器再次全球宕机。不过,该公司已经找到了导致数十项服务瘫痪的罪魁祸首,即内部技术故障所致。
周一上午,谷歌旗下几乎所有主要应用程序都无法上线,包括YouTube和Gmail,导致数以亿计的用户无法访问关键服务。该公司表示,这次宕机是因内部存储配额问题(类似于手机通知用户存储空间即将用完),它导致用于登录用户账户的身份验证系统发生故障。
谷歌发言人在声明中称:“太平洋时间凌晨3点47分,由于内部存储配额问题,谷歌的身份验证系统中断了大约45分钟。在此期间,要求用户登录的服务经历了很高的错误率。认证系统问题已在太平洋时间凌晨4点32分解决。所有服务现已恢复。我们向每个受影响的用户道歉,我们将进行彻底的后续审查,以确保这种问题将来不会再次发生。”
此次宕机事件产生了深远影响,因为谷歌地图、日历及其云存储Google Drive应用等其他谷歌服务,都在该公司自己的状态仪表板上被列为受宕机事件影响。谷歌受影响的服务中,许多都是世界上使用最广泛的服务,比如YouTube拥有超过20亿活跃用户,而Gmail是全球最受欢迎的电子邮件平台,拥有超过15亿用户。
服务监测网站Down Detector还报告称,用户在访问谷歌应用商店以及Google Meet和Hangout通信工具时也出现了问题。在服务宕机期间,许多人在社交媒体上分享了他们对这起大规模罕见服务中断事件的失望之情,这家科技巨头迅速成为网上热议焦点。
在回应这起事件时,英国特许IT学会(BCS)软件测试特别兴趣小组负责人亚当·利昂·史密斯(Adam Leon Smith),强调了谷歌智能家居产品用户在服务宕机期间经历的问题,并表示这起事件表明当今世界对少数技术的依赖程度有多高。
他说:“人们坐在黑暗中,无法打开谷歌主页。我最近的两次会议都无法使用设计好的幻灯片,因为它们存储在Google Slides中。我们对技术的依赖变得更强,但在可靠性、测试和质量方面的支出却没有同步增长。如今,许多公司将重新审视与谷歌的服务水平协议(SLA),并意识到他们的业务正依赖于完全不受他们控制的东西。”
英国萨里大学网络安全专家艾伦·伍德沃德(Alan Woodward)表示:“我们现在基本上把所有服务都托管给了云服务和第三方提供商。尽管它们有很强的弹性,没有人能完全免疫,一个小小的故障点可能就会影响数百万人。我们都太习惯依赖上网了。随着疫情的蔓延,我们都在家中工作,并试图全天候使用这些服务,这种影响正在被无限放大。”
这已经不是谷歌服务首次发生宕机事件,甚至不是今年的首次。今年3月底美国因新冠肺炎疫情封锁的时候,谷歌Gmail、 YouTube、Hangouts和Docs等服务都出现了无法访问的问题,甚至连谷歌搜索引擎也都出现服务异常。当时居家办公需求暴涨,谷歌官方表示这是网络故障,否认与网络容量不足有关。
8月份,谷歌服务遭遇了数小时的全球宕机,数百万G Suite用户面临着Gmail、Google Drive、Google Chat、Google Meet、Google Groups、Google Docs、Google Keep和Google Voice服务中断问题。此次事件影响了世界大部分地区,包括日本、新加坡、印度、欧洲、美国部分地区、中国、东南亚和海湾地区以及澳大利亚。谷歌在六个小时后才设法恢复了服务,并没有解释停机的原因。
最近一次全球宕机事件发生在9月24日,当时谷歌网站、Gmail、YouTube、Docs等服务中断,用户登录均遭到拒绝。该公司负责技术基础设施的高级副总裁伍兹·霍尔兹(Urz Holzle)揭示原因说:“一个将流量路由到应用程序后端的服务器池崩溃了,该池中的用户经历了宕机。”