微软蓝屏全球停摆,这个锅是ta的?一次更新酿成全球灾难

HelloKitty 2024-07-22 15:49

扫一扫 在手机阅读、分享本文

1018

本文由 新智元 撰写/授权提供,转载请注明原出处。

本文来源:新智元

编辑:Aeneas 好困

活久见!

只因一次更新,Windows 集体蓝屏,全世界直接「断片」了——

1.png

周五大礼包来了,打工人狂喜

2.png

HaveIBeenPwned 网络安全研究员 Troy Hunt 表示:这将是史上最大规模的IT故障

大批金融机构、电视广播公司、医疗机构、支付系统原地瘫痪,甚至连便利店和售货机都「停摆」了。

3.png

在德克萨斯州的一家星巴克,系统全面报错,咖啡都点不了了

4.png

在英国的医院,医生无法访问患者记录和预约系统,只能在纸上记录患者病情、手写处方。

Sky News 和 BBC 也暂时停播。

5.png

6.png

同时,欧洲、澳大利亚和印度的银行客户也发现:自己的在线账户登不上了。

7.png

而要说受到打击最严重的,当属航空公司了。

8.gif

数据显示,全球有超过 4000 架航班被取消。

9.gif

对美国空中交通的影响

在美国,United、Delta 和 American 等航空公司被迫停飞和延误,大批乘客滞留在机场。

10.png

美国纽约的拉瓜迪亚机场,人们正焦急地等待航班

11.png

菲律宾的尼诺·阿基诺国际机场摩肩接踵

12.png

西西里岛巴勒莫机场,乘客直接睡倒在地

13.png

印度网友则拿到了人生中第一张手写登机牌

全球一片混乱之际,「始作俑者」被揪了出来——它就是网络安全巨头 CrowdStrike。

14.png

微软:我不背这个锅

15.png

网友玩梗系列

实际上,国外存在着大量运行 CrowdStrike 软件的计算机系统——

这些设备包括杂货店的收银机、机场和火车站的出发信息板、学校的计算机、工作用的笔记本电脑和台式电脑、机场的值机系统、航空公司的票务和调度平台、医疗网络等等。

因此,CrowdStrike 的故障会在全球范围内以各种方式造成混乱。

16.png

闯出如此大祸之后,「罪魁祸首」CrowdStrike 的股票在收盘时已暴跌11%,市值蒸发了近 100 亿美元。

17.png

对它来说,这是 2022 年以来最糟糕的一天。

18.png

外媒锐评:一家本应防止故障的公司,自己却造成了全球最大的故障

对此,AI 大牛 Karpathy 一针见血地提出了个中关键:我们该如何进行设计才能防范这种风险?

19.png

全球大崩溃

在机场,人们焦急地等待着系统恢复。

20.png

21.png

22.png

超市也只能用现金付款了。

23.png

24.png

时代广场的广告牌,变成了一片空白。

25.png

联合太平洋公司的部分区域受到影响,团队和调度员之间的通信一度中断。

26.png

联邦快递表示,公司经历了严重故障,美国和欧洲的一些UPS计算机系统都受到影响。

27.png

在麻省布里格姆总医院,所有非紧急的手术、医疗就诊都被临时取消。

28.png

英国吉尔福德皇家萨里医院直接宣布发生「严重事件」,医院的放射治疗 IT 系统 Varian 等都因此宕机。

英国国家卫生服务中心表示,大多数全科医生办公室都出现了服务中断。

29.png

AWS 的客户发现,一些使用了 CrowdStrike 的 Windows Instances、Windows Workspaces 和 Appstream 应用,都遇到了问题。

在亚马逊仓库,员工用来管理日程和提交休假申请的 A to Z 程序直接瘫痪了。可以提前支取收入的 Anytime Pay 内部服务,也无法使用。

亚马逊的货运业务也出中断了。使用 Relay 平台的卡车司机,则无法在仓库提货。

30.png

特斯拉部分工厂的生产线,也被迫停止了。服务器、笔记本电脑和制造设备,都发生了故障。

在南非的银行,服务也一度中断。

31.png

总之,银行、媒体、机场……全球范围内任何使用 CrowdStrike 的系统都逃不过。

32.png

甚至,此事还惊动了美国总统和国土安全部。

33.png

如何修复

目前,官方已经给出了两个推荐的解决方案。

其中一个是将系统回滚至 0409 UTC 前创建的 snapshot,而另一个则是利用管理员权限进行修复:

1. 将 Windows 启动到安全模式或 Windows 恢复环境

2. 进入 C:\Windows\System32\drivers\CrowdStrike 目录

3. 找到匹配「C-00000291*.sys」的文件并删除

4. 正常启动电脑

听起来很简单,是吧?

然而,由于设备已经断联,这些操作都只能通过手动执行。

这意味着IT团队不仅需要在现实中找到受影响的远程电脑,而且还需要找到对应的Bitlocker恢复密钥。(如果存在主机里,那就直接死锁了)

34.png

那么问题来了,那些部署在偏远地区,或者各种「犄角旮旯」的设备怎么办?

35.png

详见官方说明:https://www.crowdstrike.com/blog/statement-on-falcon-content-update-for-windows-hosts/

挪威网络安全公司 Promon 的首席技术官 Tom Lysemose Hansen 表示,持续的全球IT故障可能并没有很简单的解决办法。

罪魁祸首是谁?

CrowdStrike 于 2011 年成立,总部位于德克萨斯州奥斯汀,主营业务是为企业提供基于云的企业安全解决方案。

36.png

CrowdStrike 于 2019 年 6 月 12 日在纳斯达克首次公开募股

其中,一款名为 Falcon 的工具,可以通过识别异常行为和漏洞,来保护计算机系统免受恶意软件等威胁。而它正是周五全球大崩溃的原因。

37.png

CrowdStrike CEO George Kurtz

截至 1 月,CrowdStrike 的业务已经遍及 170 多个国家,拥有 29000 个客户,其中 500 多家位列财富 1000 强。

世界上最大的科技公司如谷歌、亚马逊和英特尔,零售巨头 Target,顶级 F1 车队梅赛德斯 AMG,甚至美国 50 个州中的 43 个,都是它的客户。

38.png

队服上印着赞助商 CrowdStrike 巨大 logo 的梅赛德斯,果然的在当天的 FP1 中全部蓝屏了

在帮公司发现和防止安全漏洞方面上,CrowdStrike 发挥着重要作用,自称拥有「最快的平均时间」来检测威胁。

自 2011 年成立以来,CrowdStrike 已帮助调查了多起重大网络攻击,例如 2014 年索尼影业黑客攻击,以及 2015 年和 2016 年俄罗斯对民主党全国委员会的网络攻击。

截至周四晚间,CrowdStrike 的估值还超过了 830 亿美元。

39.png

CEO:已经在修了

对此,CrowdStrike 创始人兼 CEO 在第一时间发文表达了诚挚的道歉,并表示公司已经动员了所有力量来帮助客户修复问题。

40.png

官方通告:https://www.crowdstrike.com/blog/our-statement-on-todays-outage/

George Kurtz 极力保证,公司正在「积极与受 Windows 主机单一内容更新中发现的缺陷影响的客户合作」,并强调 Mac 和 Linux 主机不会受到影响。

41.gif

此外,他提醒客户保持警惕,在寻求支持时一定要和 CrowdStrike 的官方代表联系,因为「竞争对手和骗子会趁机出动」。

42.png

在 X 上,他表示,此次事件并不属于安全事件或网络攻击,「问题已被识别、隔离,修复程序已部署」

微软 CEO 纳德拉也发帖表示,微软正在跟 CrowdStrike 和整个行业密切合作,帮客户的系统恢复。

43.png

帖子下面出现了我们熟悉的身影

软件工程师被困机场

32 岁的游戏开发公司 CTO Ahmed Al Sharif,有着近 20 年的软件工程师生涯。曾是初创公司的创始人,也曾在像 EA 和 Meta 这样的大厂工作过。

他原计划在当地时间上午 11 点从巴塞罗那飞往伦敦希思罗机场出差。

然而,到了机场之后,却惊讶地发现航班停飞了。

44.png

早有迹象

在早上 8 点出发前往机场时,他就已经发现自己无法登录网上银行应用程序,登录基于 Outlook 的电子邮件时速度也很慢。但他以为只是酒店的 WiFi 出了问题。

大约在早上 8:20 到达机场时,机场已经挤满了人。队伍非常长。几个值机柜台显示蓝屏,没有人能办理手续。

这时,他才意识到了事件的严重性:

「我不知道该排在哪里,当我问一位机场工作人员时,他们告诉我现在排队没有意义,因为票务、预订和订位系统都出了问题。」

混乱持续了一天

当天,机场的行李托运机、自动售货机和大多数显示屏都无法正常工作。

整个值机过程,都是手动进行的——

在拿到手写的纸质机票之前,必须向工作人员出示电子邮件作为付款证明,来证明确实预订了当天的航班。有托运行李的乘客都必须将行李带到登机口,然后机场工作人员手动将行李扔进货舱。

相比于那些早已在机场等了超过 11 个小时的人来说,他还是很幸运的——飞机最后「只」延误了6个小时。

45.png

CrowdStrike 如何踩在了微软身上?

虽然 CrowdStrike 在网络安全行业里非常有名,但直到今天,都没有人意识到它在 Windows 平台上的主导地位——区区一个第三方解决方案,竟能对所有 Windows 设备造成如此大的影响。

而且,作为软件开发的规则之一,不在周五推送修复可以说是基本「常识」了。(避免在周末召集大量的人力来处理因为更新而出现的问题)

如今,这个原则被 CrowdStrike 打破了。

Sharif 认为,如果进行了更多的尽调,甚至让政府加入监管,这样的事件就不会发生。

独立网络安全研究员、《网络安全哲学》作者 Lukasz Olejnik 表示,「我们的软件是高度互连和相互依赖的。但这样就会存在很多单点故障,特别是当组织中存在软件单一文化时。」

网友狂欢

昨天下午,微软过得是十分煎熬。

46.png

但被微软意外提早解放了的打工人,则掀起了一场全球狂欢。

47.png

48.png

49.png

「感谢 Crowdstrike 带来了世界和平」

与此同时,网友们也纷纷在 X 上玩起了梗。

50.png

51.png

52.gif

53.gif

回形针也被拉来做成了 meme。

54.png

55.png

当然,也会有一些打不开电脑的人变得十分暴躁。

56.gif

有人已经提前预判:又有实习生要背锅了。

57.png

58.gif

网友猜测,今天的 CrowdStrike 员工 be like——

59.gif

CEO 马斯克一个上午转发了多张梗图,带头玩梗。

60.png

61.png

Mac 和 Linux 上大分。

62.gif

63.png

64.png

65.png

手写机票、手写病例算什么?手写二进制代码,才是最烧的。

66.png

参考资料:

https://www.cnbc.com/2024/07/19/latest-live-updates-on-a-major-it-outage-spreading-worldwide.html?__source=iosappshare%7Ccom.apple.UIKit.activity.CopyToPasteboard

https://www.theverge.com/2024/7/19/24201864/crowdstrike-outage-explained-microsoft-windows-bsod

https://www.forbes.com/sites/emilsayegh/2024/07/19/widespread-technology-outages-and-the-imperative-for-ai-guardrails/

https://www.businessinsider.com/crowd-strike-outage-travel-chaos-tech-expert-2024-7

微信图片_20240207151541.png

微信图片_20240313155219.jpg

微信图片_20230104175528.jpg

扫一扫 在手机阅读、分享本文

扫码关注公众号

获取更多技术资讯

客服微信
享受1V1专属服务
免费领取技术福利
发送名片申请入群
与CTO聊合作
(备注姓名、公司及职位)
热门文章