注重产品质量 提高服务品质 一站式服务

2022年软件云 Top20质量事故及其经验教训

发布时间: 2023-12-30 作者:欧宝足球比赛直播百万

  发生了不少软件质量事故,包括严重的宕机(outage)、数据丢失和网络攻击,导致航班停飞、虚拟会议中断、通讯受阻、业务无法处理,给用户带来较大的损失。即使像谷歌、微软、亚马逊、阿里、甲骨文等著名公司都遭遇严重的宕机事件,而且有些公司(如谷歌、微软)遭遇了多次宕机事件。

  由于慢慢的变多地使用云技术、软件定义架构和混合分布式架构带来的复杂性,导致软件、网络和系统问题导致的宕机正在增加,高宕机率成了目前软件服务行业存在的一大问题。根据Uptime的2022年数据中心弹性调查,80%的数据中心经理和运营商在过去三年中经历过某种类型的停机。造成宕机事件的原因比较多,除了系统的容错能力不够之外,还有“维护脚本错误、配置错误、人为操作失误、网络相关的问题、创纪录的夏季高温”等原因。

  2022年1月8日,谷歌在美国俄勒冈州西1B地区的延迟增加了3小时22分钟(从当地时间14点15分开始,到17:36结束),这次服务中断的原因是在软件定义网络(SDN)组件和检查点上执行的“例行维护事件”,缺少配置信息。随后发生的开关故障意味着随叫随到(on-call)的工程师一定要进行维修。

  据谷歌公司称,这起事件影响了该公司的服务,包括谷歌云网络、谷歌云DNS、Cloud Run, Cloud Spanner和谷歌计算引擎。

  IBM云在2022年的开局并不顺利,因为其经典的基础设施网络出现了问题,该网络为全球60多个IBM云数据中心和28个接入点(pop)提供连接。

  先是达拉斯地区的IBM云服务用户受到了影响,宕机时间大约五个小时内。接着,第二天IBM的虚拟私有云产品出现一些明显的异常问题,持续了大约一个小时,影响了华盛顿特区的用户;日本。

  Salesforce的子公司、位于旧金山的Slack在2022年经历了多次事件,但该公司唯一一次被标记为严重的宕机事件发生在2月份。在这次宕机的总结中,Slack报告称,用户从早上6点(当地时间)开始就无法访问协作应用程序,直到上午9点14分,超过3个小时。

  Slack公司解释说,配置更改导致数据库基础设施活动增加,导致数据库无法为连接到Slack的请求提供服务。之后,Slack推出了更严格的速率限制,屏蔽了那些尚未连接Slack的用户。一旦系统稳定下来,系统就取消速率限制,当系统再次不堪重负时,又再次实施速率限制。

  4. 英国航空公司在线日,英国航空公司在线服务中断了几个小时,导致数百个航班取消,影响波及全球,并中断了航空公司的运营:航班不能预订,旅客也不能通过电子方式办理登机手续。据报道,当其在线系统无法访问时,该航空公司被迫恢复纸质流程。“我们的监测显示,通往该航空公司在线服务(与服务器)的网络路径是可达的,但服务器和网站的响应超时了”,经专业技术人员分析,

  3月8日,谷歌Traffic Director工具的用户经历了“2小时35分钟的严重服务错误”,Spotify、Discord等服务受到了这次宕机的影响。谷歌发布的一篇帖子称:“对处理配置的Traffic Director代码进行了更新。” 代码更改假设配置数据格式迁移已经完全完成,但事实上,数据迁移还没有完成。“它会无意中删除配置,导致下游客户端异常运行程序,并破坏数据平面。”

  谷歌Cloud在6月还发生过服务中断事件,限制了用户访问云和相关项目,不过,这是由于同时发生的两次海底光纤切断造成的。

  3月28日,在JSC RTComm.RU (AS 8342,俄罗斯互联网和卫星通信提供商)错误地公布了Twitter的一个前缀(104.244.42.0/24)之后,随后导致一些用户的Twitter流量被重置路由、传输失败,从而没办法使用Twitter,持续大约45分钟。在RTComm的BGP(Border Gateway Protocol)公告撤销后,受影响的用户恢复了对Twitter服务的访问。有经验的人指出,BGP错误配置可以被用来以一种有明确的目的性的方式阻止流量——然而,并不总是容易分辨这种情况是偶然的还是故意的。“我们大家都知道,3月28日的推特事件是由RTComm宣布自己是推特前缀的来源,然后又撤销了它。虽然我们不知道是什么导致了这一声明,但重要的是要了解BGP的意外错误配置并不罕见,而且考虑到ISP撤回路由,RTComm很可能无意对Twitter的服务造成全球性影响。也就是说,ISP在某些地区使用BGP的本地化操作实现本地访问策略阻塞流量”。

  组织处理路由泄漏和劫持的一种方法是使用安全机制,如资源公钥基础设施(RPKI,一种用于执行路由源授权的加密安全机制)监控快速检测和保护BGP。RPKI对BGP劫持和泄漏是有效的,但是采用还不广泛。“尽管我们可能已实现了RPKI来抵御BGP威胁,但电信公司可能不会这样做,这是在选择ISP时要考虑的问题。”

  这是Atlassian历史上最长的一次宕机,故障(用户无法访问Jira、OpsGenie、Confluence和其他Atlassian云服务)始于4月5日,部分客户在4月8日之前恢复了服务,而有些客户直到4月18日才恢复。在事后事故报告中,Atlassian描述了导致长时间停机的两个问题——团队之间有 “沟通鸿沟”、系统警告不足。该公司表示:“尽管这是一起重大事件,但没有客户丢失超过5分钟的数据。” 为避免未来出现类似问题,该公司计划在所有系统上采用“软删除”功能;为多站点、多产品删除操作的自动恢复程序添加更多客户;创建一个大规模事件沟通手册。

  Atlassian的状态页面上有“大量橙色和红色的指示器”,表明发生了重大宕机,但是状态页面通常会低估宕机的程度,也有一定的可能夸大影响,这是一个很难达到的平衡:要么说得太少,要么说得太晚,客户会对响应速度感到不满;说得太多,过于透明,可能会不必要地让大量未受影响的客户以及更广泛的利益相关者感到担忧。”

  IT文档软件供应商IT Glue (Kaseya的一部分)今年经历了多次宕机。从时间长度看,最严重的宕机似乎发生在3月31日。卖家在凌晨5:51发布了消息,一个问题阻止了访问IT Glue的北美数据中心,并导致502或 “Bad Gateway” 错误消息。IT Glue表示,他们在上午8点12分之前解决了这样的一个问题,但45分钟后,该公司又公布消息称问题再次发生。

  11点36分(在最初的帖子发布近6个小时后),IT Glue表示问题终于解决了。4月4日早上6点35分,IT Glue在其状态页面上再次表示,由于北美数据中心的问题,用户可能会收到“Bad Gateway” 消息。上午7点26分,这样的一个问题得到了解决。

  在中午12点20分问题又出现,用户在应用程序的某些页面上又看到了“502/500错误” 页面,28分钟后解决了这一问题。

  2022年5月30日,Spotify博客宕机,持续了8小时,播客听众无法访问平台。

  这次停电的原因很简单,容易避免。Spotify拥有并使用一个名为Megaphone的第三方平台来托管他们的播客,而过期的安全证书意味着用户无法在5月30日和第2天凌晨访问播客。我们应有工具实时检查这类问题,在SSL证书过期之前和用户受一定的影响之前通知我们。但是,

  。虽然这有助于接触那些使用社会化媒体并关注该账户的人,但我们更应该基于自己的网站的、独立的状态页面提供一个可订阅和可靠的地方来检查应用程序的状态。10. 微软宕机(6月)

  6月7日,微软表示,部分用户在连接位于弗吉尼亚州的美国东部地区的资源时遇到了问题。该问题持续了大约12个小时。

  这次停电归咎于 “我们在美国东部一个可用区域内的一个数据中心发生了意外的电力振荡”,微软的冗余电力系统的组件产生了意外的电气瞬变,导致空气处理单元(ahu)检测到潜在的故障,因此自动关闭,等待手动复位。据报道,这次宕机影响了应用程序洞察、日志分析、托管身份服务、媒体服务和NetApp文件,造成了延迟、登录失败和访问账户的问题。微软正在努力改进我们的工具和流程,以更快地标记异常,并微调我们的警报,以更全面地通知现场数据中心运营商。

  微软与行业合作伙伴合作,制定了一项故障注入测试相关关键环境系统的计划,以便更积极地识别和补救潜在风险,并扩大支持可用性区域的Azure服务数量,以便客户能选择自动复制和/或在服务之间构建自己的弹性。6月21日

  ,微软在推特上表示,它正在调查Exchange Online的延迟和连接问题。大约两个小时后,微软在推特上表示,确定多项微软365服务正在经历延迟、连接和搜索问题,并通过重新路由流量做出回应。

  大约9个小时后,微软在推特上表示,“重新路由流量,并有明确的目的性地重新再启动基础设施,已经成功恢复了服务访问和功能。”7月20日微软再次发生宕机。

  7月20日下午6点47分,微软报告其Teams协作应用无法访问,这是由于最近的一次部署导致内部存储服务的连接中断。与Teams集成的多个Microsoft 365服务受一定的影响,包括Word、Office Online和SharePoint Online。据路透社报道,美国发生了4800多起此类事件,日本发生了18200多起。直到凌晨5:02(超过10个小时之后),大部分服务已经恢复。11. Cloudflare宕机(6月21日)

  该公司表示,这次宕机是我们自己的错误造成的:在努力将繁忙的位置转换为更灵活和更有弹性的架构时遇到了问题,并在大约1小时15分钟内得到了修复。这次宕机影响了公司的19个数据中心的流量,“不幸的是,这19个地点处理了我们全球流量的很大一部分”,“我们对这次宕机感觉到很抱歉。这是我们的失误,不是攻击或恶意活动造成的。”

  一次拙劣的维护更新导致加拿大运营商罗杰斯通信公司(Rogers Communications)的网络在全国范围内长时间异常工作。这次宕机影响了大约1200万客户的电话和互联网服务,并阻碍了全国各地的许多关键服务,包括银行交易、政府服务和应急响应能力。Rogers撤销前缀是因为内部路由问题,这使得一级网络服务提供商在近24小时内无法利用互联网连接到。“这一事件似乎是由罗杰斯的大量前缀被撤销引发的,导致其网络无法在全球网络上连接。然而,在其网络中观察到的最近一段时间的行为表明,外部BGP路由的退出可能是由内部路由问题引起的。”

  Rogers停机,给我们一个重要的提醒,即医院和银行等关键服务需要备份,要有一个以上的网络供应商,并且要有一个发生中断时的备份计划,并确保有主动的可见性。无论规模有多大,任何网络运营商都无法幸免“宕机”事故。

  创纪录的夏季高温导致谷歌(Google)和甲骨文(Oracle)公司在伦敦数据中心的冷却系统发生故障。当地时间

  7月19日下午4点左右,甲骨文公司在英国南部数据中心的两个数据中心冷却器出现故障。

  结果,数据中心的温度开始攀升,导致计算基础设施的一部分进入保护性关闭状态。Oracle云基础设施的一部分客户在恢复访问其托管在英国南部(伦敦)地区的资源时遇到了延迟,这些资源依赖于受影响的计算基础设施。该问题直到第二天上午10点才得到解决。谷歌也于同一天下午6点(当地时间)在欧洲西部2区发布了自己的问题,“由于多个冗余冷却系统同时故障,再加上外部温度极高,欧洲-西部2-a区域的一个数据中心无法保持安全的运行温度。我们关闭了这部分区域的电源,以防止更长时间的停机或对机器的损坏。这导致该区域的部分容量故障,导致其实例终止、服务降级和部分客户的网络问题”。直到第二天早上7点前解决了问题。受到严重影响的谷歌服务包括云内存存储、云SQL、云存储、BigQuery、微软活动目录管理服务和谷歌Kubernete引擎。

  几乎同样的原因,造成2022年阿里云香港可用区C的最大宕机事件,虽然发生在12月。

  7月28日,美国东2地区的亚马逊网络服务(AWS)可用区1 (AZ1)发生停电,导致服务中断。宕机影响了该地区的连接,并导致亚马逊的EC2实例瘫痪,进而影响了Webex、Okta、Splunk、BambooHR、Zoom和New Relic的服务,宕机还影响了AWS的CloudFront、CloudWatch、Amazon Elastic Kubernetes服务(EKS)和Lambda服务等。AWS报告称,停电只持续了大约20分钟,但部分客户的服务和应用程序需要长达3个小时才能恢复。为云交付的应用程序和服务设计某一些程度的物理冗余是很重要的,数据中心停电(无论是电网中断,还是UPS电池等)是不可能软着陆的,依赖的系统就会受到硬性的冲击,相关系统会发生故障,在这种情况下,数字服务的架构弹性和冗余至关重要。

  短暂的宕机影响了谷歌搜索和谷歌地图,全球用户没办法使用这些广泛使用的谷歌服务约一个小时。试图访问这些服务会导致来自谷歌边缘服务器的错误消息,包括HTTP 500和502服务器响应(通常表明内部服务器或应用程序问题)。据报道,

  不仅最终用户无法访问谷歌搜索和谷歌地图,依赖谷歌软件功能的应用程序也在宕机期间停止工作。

  这次宕机使我们明白了两个道理:即使是最稳定的服务(如谷歌搜索),当系统越来越复杂了,也会发生系统崩溃的事件。其次,软件系统是如何无处不在的,在我们日常消费的数字服务中,它们交织在一起,

  视频会议应用Zoom服务在2022年9月15日上午10:31分开始异常工作,导致全球用户出现了502(Bad gateway)错误,用户无法登录或加入会议,在某些情况下,已经参加会议的用户会被踢出会议。这次事故波及美国波士顿、纽约市、华盛顿特区和旧金山等地区的用户,截止于上午11点11分,已有超过3.4万份服务中断报告。11点49分,Zoom在其服务状态页面上报告称 “事件已经解决”,可能提升了zoom后端路由或重新分配流量的能力。在推特上写道:感谢大家的耐心等待,我们对此次中断表示诚挚的歉意。

  17. Zscaler服务中断( 10月 )网络安全供应商Zscaler服务中断发生在10月19日下午3点左右,到第二天下午2点左右,问题才得到解决,这次事故影响了美国、欧洲和亚洲的互联网用户几乎一整天。这次事故是由于法国马赛的光缆被切断造成的,公司将该事件归为“一起故意破坏行为”。

  10月25日,发送到Zscaler代理端点子集的流量经历了100%的丢包,影响了在Zscaler云网络上使用Zscaler Internet Access (ZIA)服务的客户,最严重的丢包持续了大约30分钟,尽管在接下来的三个小时里,一些用户位置的可达性问题和丢包峰值间歇性地持续存在。

  Zscaler在他们的状态页面上将这样的一个问题称为“流量转发问题”。当代理设备的虚拟IP不可达时,会导致流量无法转发。

  因为在安全服务边缘(SSE)实现中,典型的代理不仅是网络流量,还包括其他关键业务工具和SaaS服务,如Salesforce、ServiceNow和Microsoft Office 365。因此,代理位于用户的数据路径中,当代理不可达时,对这些工具的访问就会受一定的影响,补救常常要手动干预,将受影响的用户路由到备用网关。”

  10月25日,全球31%人口使用的WhatsApp发生了两小时的宕机,使用户无法在平台上发送或接收消息。这次宕机与后端应用程序服务故障有关,而不是网络故障。事故发生在印度的高峰时段,该应用在印度拥有数亿用户。

  19. Rackspace勒索软件攻击( 12月 )2022年12月2日,发生了针对第三方网络安全供应商Rackspace的勒索软件攻击的事件,攻击仅限于托管的Microsoft Exchange环境,导致其托管的Exchange出现了大规模宕机,从而不得不让超过三分之二的客户转移到微软365环境上,

  Rackspace还请来了CrowdStrike来帮助处理善后工作,而且FBI对这起攻击事件进行了调查。

  12月5日,Rackspace开始缓慢地恢复数千名Microsoft 365客户的电子邮件服务。公司称,“(在攻击发生后)我们主动关闭并断开托管Exchange环境,同时进行分类,以了解影响的范围和严重程度。经过进一步分析,我们确定这是一起安全事件。”

  2月8日,北京某科技公司、王某某等人涉嫌侵犯公民个人隐私信息罪,被告单位被判处罚金人民币4000万元,王某某被判处有期徒刑7年、罚金人民币1000万元,2015年至2019年该公司组建专门爬虫技术团队,在未取得求职者和平台直接授权的情况下,秘密爬取国内主流招聘平台上的求职者简历数据,获取2.1亿余条个人信息。

  2月23日,芯片巨头英伟达遭到黑客组织Lapsus$攻击,约1TB数据被窃取,其中包含英伟达GPU驱动、挖矿锁算力软件源代码等高度机密数据,超7万员工数据被泄露。不久之后,科技巨头三星电子也承认被同一个黑客组织攻击,导致三星旗下的智能手机的源代码泄露,泄露的190GB数据被拆分为三个压缩文件供外界下载,这中间还包括生物识别算法和来自高通的机密源代码。

  3月19日,国际信贷巨头Transunion南非分公司服务器被黑客组织非法访问,导致

  南非几乎所有公民征信数据泄露。数据泄漏是由一个名为N4WootySectu的巴西黑客组织引起的。整个入侵过程非常顺利,因为服务器密码很弱。该事件导致南非公开了5400万人(约90%)的信息,包括手机号、电子邮件地址、ID号码、家庭地址和消费的人信用评分。

  4月初,大亚圣象全资子公司圣象集团有限公司下属子公司美国HomeLegendLLC公司遭遇邮箱入侵,入侵者侵入了该公司租用的微软公司365邮箱系统,伪造假电子邮件、供应商文件及邮件路径,被盗356.9万美元,大亚圣象表示该笔资金被追回的可能性极低。5月11日,加拿大、德国军方的独家战机培训供应商Top Aces透露遭LockBit勒索软件攻击,疑似泄露44G内部数据文件,勒索软件团伙称如不按时支付赎金,将公布内部数据。