宕机什么意思?一文讲清常见场景和应对方法

tmyb

相信大家刷互联网的时候,经常能看到“某某服务器宕机”“服务暂时宕机”的说法,不少朋友只知道大概是“崩了”的意思,具体说不清楚宕机到底指啥,还经常把宕机和死机、崩溃搞混,今天咱们就用大家都能听懂的话,结合最近发生的实事和我自己亲身经历的例子,把这事说透。

宕机什么意思?一文讲清常见场景和应对方法

别只懂“服务器崩了”,宕机的核心定义很简单

很多人对宕机的第一印象,就是大型互联网公司的服务器挂了,但其实宕机这个词的范围比你想的广多了。“宕机”这个说法其实最早来自我国台湾地区的音译,英文里服务停止运行叫“down机”,“down”的发音和“宕”接近,久而久之就被叫做宕机,说白了就是:设备或者服务因为故障停止运行,没法正常提供服务,就叫宕机。

小到你口袋里的手机,大到全球知名的云服务商服务器,都可能宕机,我自己上个月就刚经历过一次印象深刻的宕机:我有个粉丝追周杰伦快15年了,从中学省零花钱买卡带,到工作后每年都抢演唱会门票,2024年周杰伦上海站加开两场,她刚好那段时间在上海出差,托我一定要帮她抢两张内场票,我提前半小时就打开了大麦网,关了所有后台app,连wifi切了5G,定了两个闹钟提前一分钟倒计时,到点秒点进去,直接跳出一个白底黑字:“服务器繁忙,请稍后再试”。

我那五分钟里面刷新了快二十次,一直是这个提示,等终于能进到选座页面,所有价位的票全灰了,后来我去刷微博,发现#大麦网宕机#直接冲上了热搜第一,几十万粉丝和我们一样,卡在门外进不去,好多人蹲了几个月的票就这么飞了,我那个粉丝最后咬咬牙,找黄牛加了快两千块才买到两张,说起来都是一把辛酸泪——这就是最典型的流量过载导致的服务宕机,你看,咱们普通人日常就能碰到,不是什么远在天边的技术名词。

最新全球宕机大事件,带你看懂宕机的常见原因

可能有人会说,不就是人多挤崩了吗?还有啥别的原因?其实宕机的原因有很多种,咱们拿今年刚发生的一件全球级的宕机事件来说,就能把大部分原因说清楚。

2024年7月18日,全球最大的云服务商亚马逊AWS,美国东部1区发生大规模宕机,这个区域是全球流量承载量最大的云区域之一,全球半数以上的知名互联网公司都把核心服务架在这里,这次宕机持续了将近4个小时,根据全球网络监测机构Cloudflare的统计,那次宕机直接导致全球互联网整体流量下降了3%,影响范围大到超出想象:大众常用的ChatGPT全球几乎全面停服,那天无数靠ChatGPT写文案、改代码的上班族直接被迫摸鱼;迪士尼+、奈飞等流媒体平台欧美区大半用户无法加载视频;就连纽约证券交易所的部分交易系统都受到影响,更搞笑的是,亚马逊自己的官方网站都因为用了自家的云服务,跟着一起宕机打不开了。

后来AWS公布的故障原因,是因为一次常规的网络升级操作,配置出错,导致整个区域的网络路由混乱,最终引发了全区域宕机——这就是典型的操作失误导致的宕机,和流量没关系,顶级技术团队也会犯错。

除了刚才说的流量过载、操作失误,常见的宕机原因还有这几种:

第一种是硬件故障,这个很好理解,服务器也是机器,硬盘会坏,电源会烧,机房还会断电,我家楼下开了五年的网咖,去年夏天就出过一次事:外面修路挖断了市政电缆,整个片区停电,网咖的备用发电机坏了没修,整个机房直接断电,当时正是周五晚上,满座都是开黑打排位的玩家,全部突然宕机,老板最后不仅全场免单,还每人送了一杯冰可乐才平息众怒,这就是硬件故障导致的宕机,放到哪里都一样。

第二种是软件漏洞,今年1月份微软就出过一次大新闻:微软推送了针对Windows Server服务器系统的月度更新,结果这个更新带了一个致命漏洞,更完之后全球大量企业的服务器直接蓝屏宕机,据统计全球超过150家财富500强企业受到影响,不少银行、机场的服务都中断了好几个小时,最后微软紧急撤回更新,花了整整一天才帮大部分企业恢复服务——一个小小的代码漏洞,就能引发这么大的宕机事故,就是因为现在的软件系统太复杂了,牵一发而动全身。

第三种就是网络骨干故障,去年南方某省就发生过,施工队挖断了运营商的骨干光缆,导致整个省的好多互联网服务都宕机了快两个小时,连三大运营商的手机信号都受到了影响,这种属于不可抗力导致的宕机,谁也没法完全提前预测。

宕机、死机、崩溃到底有啥区别?90%的人都搞混了

讲完了原因,很多人肯定会问:我怎么经常听到死机、崩溃,这些和宕机有啥不一样?是不是就是同一个东西?其实还真不是,日常用的时候,三者指的范围不一样,给大家举个打游戏的例子,一秒就能分清楚:

如果你打《王者荣耀》打晋级赛,打到最后一波团,你的手机突然卡死了,按什么都没反应,只能长按电源键重启,这叫你的手机死机了,一般指整个硬件系统完全停止运行。

宕机什么意思?一文讲清常见场景和应对方法

如果你进去游戏,选完英雄,突然游戏弹出一个框“程序无响应”,然后直接退回到手机桌面,但是你手机别的app还能正常用,这叫游戏程序崩溃了,一般指单个应用出问题停止运行。

如果你开着语音和好友五排,所有人都突然卡着不动,然后弹出“与服务器断开连接”,重新连也连不上,官方马上发公告说服务器故障,这就叫官方服务器宕机了,宕机既可以指整个系统停止运行,也可以指对外提供的服务整体不可用,日常我们说宕机,大部分时候都是指公共的网络服务无法正常使用,这就是三者最核心的区别。

日常口语里大家混用也没啥问题,只要对方能听懂就行,但是搞清楚区别,碰到问题的时候你就知道到底是谁出问题了,比如你自己能刷别的网页,只有某个网站打不开,那肯定是那个网站的服务宕机了,不是你自己网络的问题,不用瞎折腾自己的路由器。

碰到宕机该怎么处理?不同场景的应对方法整理好了

谁都碰到过宕机,碰到宕机别慌,不同场景有不同的应对方法,我给大家整理好了:

如果是你自己的手机、电脑宕机死机了:百分之九十的问题都能靠重启解决,重启完还不行,就看看是不是温度太高了,夏天玩大型游戏或者放在太阳下暴晒,很容易因为过热宕机,放凉了再开就好,要是重启放凉都不行,那可能就是硬件出问题了,送修就对了。

如果是你用的公共互联网服务宕机了:比如你要抢票、要付款、要办公,结果对方服务宕机了,首先别疯狂刷新反复点击,你越刷,给服务器造成的压力就越大,恢复的速度就越慢,你越抢不到票,正确的做法是:先去对方的官方微博、公众号看看,一般只要是规模大一点的宕机,运营团队三五分钟就能出公告,告诉你故障原因和大概的恢复时间。

比如今年5月份美团就发生过一次局部宕机,不少用户扫不开共享单车,付不了餐费,美团十分钟就出了公告,技术团队半个多小时就恢复了服务,后来还给所有受影响的用户发了优惠券补偿,处理的就很到位,那如果因为宕机给你造成了损失怎么办?比如你打职业比赛,服务器宕机导致你被淘汰,或者你抢票因为宕机没抢到能不能索赔?这里给大家说个实话:大部分互联网平台的用户协议里,都会约定因为服务器故障等不可抗力造成的损失,平台只负责恢复服务,不承担额外的赔偿,不过大部分时候,只要是平台的问题,都会给用户发一些优惠券、虚拟补偿,大型活动碰到宕机,还会直接延后截止时间,我之前参加一个自媒体创作大赛,截止当天平台宕机三个小时,最后官方直接把截止时间延后了一天,还是很人性化的。

为什么现在宕机越来越常见?我来说说我的个人看法

不知道大家有没有感觉,好像现在我们听到宕机的新闻越来越多了,是现在的技术退步了吗?我作为做了五年互联网自媒体,说说我个人的看法,其实真不是技术退步了,反而是因为互联网发展太快了,才导致我们听到宕机的变多了,主要有三个原因:

第一,现在所有行业都越来越依赖互联网和云服务了,原来只有互联网公司才会有服务器宕机,现在银行、超市、工厂、政府办事都靠线上服务,哪怕一个小地方的服务出问题,都会被大家知道,所以我们听到的宕机新闻就多了。

第二,现在互联网的流量波动比原来大太多了,原来一个网站一天有几万流量就是大网站了,现在一个热点事件出来,一个演唱会抢票,一个热门商品预售,一分钟就能涌进来几百万上千万甚至上亿的流量,哪怕你提前做了扩容,也顶不住这种突发的超预期流量,稍微没顶住就会宕机,就拿今年618来说,淘宝天猫承载了每秒几十万的订单并发,提前好几个月就开始做容量规划、分流测试,所以全程没宕机,这已经是顶级水平了,但就算这样,也没人敢百分百保证下次一定不会出问题。

第三,现在大部分公司都用公有云,虽然降低了成本,但是也把风险集中了,原来每个公司自己管自己的服务器,一个公司出问题只有一个公司受影响,现在一堆公司都用同一个云服务商的同一个区域,云服务商出问题,所有公司都跟着躺枪,就像这次AWS宕机,一堆八竿子打不着的公司都受影响,就是这个原因。

那很多人会说,难道就不能完全避免宕机吗?从我了解的行业情况来看,完全避免宕机目前来说是不可能的,哪怕是谷歌、亚马逊这种顶级公司,能做到的最好水平就是99.99%的可用性,算下来一年也会有大概52分钟的宕机时间,这已经是行业天花板了,对于很多中小公司来说,预算有限,不可能投几千万去做多区域多副本的冗余架构,所以偶尔出点问题,其实真的没必要上来就骂“废物”,出了问题不及时修复,不给用户说法,那该骂还是得骂。

对于我们普通用户来说,其实只要记住一点就够了:重要的数据一定要多备份,不要把所有东西都放在一个地方,我做自媒体这么多年,我的所有稿子、素材,都是云盘存一份,自己的移动硬盘存一份,哪怕云盘宕机了,我也不会丢东西,这就是普通用户应对宕机最好的方法。

宕机其实就是设备或者服务因为故障停止运行,不是什么高深的技术名词,我们日常生活中经常碰到,只要搞清楚原因,用对应对方法,其实也没什么可怕的,互联网给我们带来了这么多方便,偶尔出点小问题,其实也是发展过程中正常的事,期待未来技术越来越进步,宕机越来越少,我们用网越来越顺。