一场意外刷屏的“蓝色危机”,旧编号为何成热词
2024年7月19日,我相信很多人和我一样,刷朋友圈刷热搜的时候,都被同一个词砸懵了:kb2286198,我那天本来约了广州车管所换到期驾照,提前一周请假、坐了四十多分钟地铁赶过去,刚进门就看见大厅乌泱泱挤了两百多号人,工作人员举着喇叭喊“系统全崩了,不知道什么时候恢复”,那是我第一次直观感受到这场全球危机的冲击力:原本按部就班的生活,就因为一片蓝色的电脑屏幕,彻底乱了套。

我发小阿凯那天刚好在白云机场T1航站楼值机岗换早班,他后来跟我吐槽的时候我都笑不出来,那天早高峰本来就忙,十几个国际国内航班挤在一块办手续,他刚给第一个旅客刷完身份证,眼前的电脑突然闪了一下,紧接着就变成了Windows标志性的蓝屏,上面一串乱糟糟的错误代码,一开始他以为只是单台机器的问题,换了电脑重启路由器,折腾了十分钟,才发现整个航站楼所有值机、安检、调度的电脑全蓝了。
后来的情况大家应该也能想到:旅客围着柜台吵,要赶飞机的情绪激动拍桌子,地勤们拿不出解决方案,只能翻出库存很久的纸质登机牌,一个一个手工写信息,阿凯说他那天写了三百多张登机牌,写到最后手抖得笔都握不住,下班的时候还挨了三个投诉,原本约好的同事聚餐直接推了,回家倒头就睡。
这不是某一个地方的小问题,而是一场席卷全球的大规模宕机,根据事后微软和CrowdStrike联合发布的通报,这次故障总共影响了全球超过8万家企业和公共机构,直接经济损失超过100亿美元:美联航取消了120多个进出港航班,欧洲多个国家的银行ATM彻底停摆,美国多家医院的急诊挂号系统瘫痪,甚至连迪士尼乐园的检票系统都崩了,游客在太阳底下排了两个小时队还进不了园,国内也有十多个机场的离港系统受到影响,多地的政务服务窗口暂停办理业务,不少人像我一样白跑一趟。
那为什么一个十几年前的旧补丁编号kb2286198会冲上热搜第一?很多人一开始以为这是新病毒的编号,或者是微软新出的什么致命漏洞,其实真相有点啼笑皆非,这完全是一场误打误撞的网络误传。
kb2286198的前世今生:旧补丁的意外走红
查一下微软的官方补丁库就能知道,kb2286198其实是微软在2010年针对Windows XP系统发布的一个旧安全补丁,作用是修复当时Windows内核驱动的签名验证漏洞,放到现在,连Windows XP都几乎没人用了,这个补丁本来应该安安静静躺在微软服务器的角落里吃灰,十几年都不会有人搜一次。
这次大规模蓝屏故障的本质,其实是美国安全服务商CrowdStrike的Falcon终端安全传感器的更新包出了错:更新包里面包含了一个错误的驱动文件,导致Windows加载的时候触发了内核校验错误,直接蓝屏死机,很多用户遇到蓝屏之后,第一反应就是截图错误信息去搜索引擎找解决方案,而错误日志里刚好提到了驱动签名验证的相关问题,搜索引擎的关联算法就把十几年前的kb2286198推到了最前面。

越来越多人点进去搜索,这个旧编号的热度就越来越高,最后干脆直接冲上了全球多个平台的热搜榜首,就连很多没遇到故障的网友,都好奇点进去看这个编号到底是什么,最后把kb2286198直接做成了这次全球蓝屏事件的代名词,我那天刷B站,搜“蓝屏修复”,前十个热门视频有八个标题都带了kb2286198,还有不少玩梗的表情包,说“今天你的电脑变蓝了吗”,看起来好笑,背后其实藏着非常值得警惕的问题。
这件事本身就很能说明问题:我们大多数普通用户,对自己每天用的数字系统其实一无所知,出了问题只会搜关键词找现成的解决方案,连十几年前的旧补丁都能被误打误撞捧成热词,足以说明我们对数字风险的认知有多匮乏,很多人觉得“大规模系统瘫痪”是电影里才会发生的事,离自己的生活很远,可这次kb2286198事件给所有人上了一课:风险从来不会提前打招呼,它可能就是一个错误的更新包,就把全世界的正常生活都打乱。
从kb2286198事件看:我们的数字生活到底有多脆弱
我之前一直觉得,现在的数字系统已经很稳定了,顶多就是我家网络断个一两个小时,不会出什么大问题,直到这次事件之后,我才发现我们习以为常的便利生活,其实脆弱得像一张纸。
除了我自己换驾照白跑一趟、发小阿机场挨投诉,我身边还有一个实打实的损失案例:我朋友阿泽是做新媒体探店的,靠给本地商家拍宣传片赚钱,出事那天他刚好剪完一个连锁火锅品牌的推广片,约定当天中午交稿,他嫌云盘同步太慢,一直把工程文件存在本地电脑桌面,结果刚剪完保存,电脑直接蓝屏了。
重启了五六次都进不去系统,阿泽赶紧找维修店的人过来,检测之后说内核崩溃的时候伤到了系统盘的扇区,很多文件已经损坏了,找专业的数据恢复团队花了两千多块,恢复了大部分文件,偏偏那个宣传片的工程文件彻底坏了,根本打不开,离约定交稿只剩不到四个小时,根本不可能重新拍重新剪,最后阿泽只能按合同赔了商家5000块违约金,还差点丢了这个长期合作的客户。
这件事之后阿泽第一时间买了2T的移动硬盘,现在只要剪完片子,本地存一份,云盘传一份,移动硬盘再备份一份,跟我说“以前总嫌备份麻烦,现在知道了,麻烦这十分钟,比赔五千块强一万倍”。

其实阿泽的损失只是这次事件里很小的一个缩影,很多关键基础设施受到的影响更大,我表姐在杭州一家三甲医院的手术室做护士,她跟我说,出事那天早上原本排了三台择期手术,结果手术室的电子病历系统、监护设备的联网记录系统全崩了,所有的患者信息都调不出来,只能靠护士翻纸质病历手工核对,手术中的生命体征也只能人工记录,原本一个小时能做完的手术,整整做了两个半小时,三台手术全部推迟,好几个患者家属都有情绪,医生护士从早上忙到下午连水都没喝上一口。
根据不完全统计,这次kb2286198事件(也就是这次全球蓝屏故障)里,国内光是暂停服务的政务窗口就超过两千个,有超过一百多家中小型企业因为系统全天瘫痪,丢了订单赔了违约金,损失少的几万多的几十万,对本就经营困难的小企业来说,这几乎是伤筋动骨的打击。
在这里我也说说我的个人观点:数字时代给我们带来了极致的便利,我们现在不管是吃饭、出行、办事、工作,全靠联网的数字系统运转,可我们很少想过,整个系统的耦合度太高了,链条太长了,只要其中一个小小的环节出一个小小的错误,就会引发全局性的灾难,这次就是一个典型的例子:CrowdStrike只不过是推送了一个有错误的更新包,就引发了全球范围的大瘫痪,从亚洲到欧洲到美洲,没人能幸免,这种脆弱性,其实是非常可怕的——就好比全世界的电力都靠一个总开关控制,总开关跳了闸,全世界全黑,没人能独善其身。
kb2286198给所有人敲了哪些必须重视的警钟
这次事件过去之后,很多人觉得不就是一次偶然的故障吗?修好了就没事了,没必要上纲上线,可在我看来,kb2286198这个意外走红的旧编号,给我们个人、企业乃至整个公共服务领域,都敲了必须重视的警钟。
首先对关键基础设施和企业来说,绝对不能迷信“服务商不会出错”,必须要有离线应急预案,也必须严格落实更新测试机制,这次故障的根本原因,就是CrowdStrike没有对更新包做足够的测试,就直接全量推送给了所有用户,才把一个小错误变成了大灾难,事件之后CrowdStrike的CEO也公开道歉,承诺后续会改成分级更新机制:先推给1%的测试用户,观察24小时没有问题再逐步全量推送,微软也更新了Windows的驱动拦截机制,会自动识别异常驱动,避免再出现全系统蓝屏的问题,国内不少政企单位也在事件之后开展了关键信息基础设施的应急演练,要求所有服务商必须落实更新前测试,同时配备离线应急系统——比如机场的值机系统,万一核心系统崩了,离线的手工登记系统也要能保证基本运转,不会彻底停摆让旅客滞留在机场。
其次对我们普通个人来说,风险意识和备份习惯,才是给我们自己电脑和数据最好的“安全补丁”,我见过太多人跟出事前的阿泽一样,嫌备份麻烦,所有重要文件都存在本地,还有人把所有的钱都放在一个第三方支付平台,把所有的照片都存在手机相册里,从来不多做一份备份,真等到出问题的时候,哭都来不及,这次事件之后我也调整了我自己的习惯:所有重要的工作文件,我现在都是存三份,本地电脑一份,百度云盘一份,移动硬盘再备份一份,手机里的照片和聊天记录,每个月自动同步一次到移动硬盘,花不了十分钟,真出问题的时候,能帮你避免几万块的损失,还有无数的麻烦。
最后我想说,kb2286198本来是一个躺在服务器里十几年无人问津的旧编号,因为一场意外的全球故障成了全民热词,这件事看起来有点荒诞,其实本质上是给我们所有人提了一个醒:数字时代没有绝对的安全,也没有绝对不会出错的服务商,不管是个人还是机构,永远都要留一手,永远都要有风险意识,便利从来都不是免费的,便利的代价就是脆弱,我们享受了数字时代的便利,就要承担对应的风险,而提前做好准备,才是应对风险最好的方法。
毕竟,比起出了问题再去搜kb2286198找解决方案,提前打好风险意识这个补丁,才是真的能避免损失的好事。

