X

扫码登录

二维码
  • 账号登录
登录
登录视为您已同意第三方账号绑定协议、服务条款、隐私政策
X

扫码注册

二维码
  • 账号注册
我以阅读并同意 服务条款、 隐私政策
注册
注册视为您已同意第三方账号绑定协议、服务条款、隐私政策
首页 > 新闻资讯 > 正文

" 崩溃 " 的 2024:十大互联网宕机事件复盘与启示

2024年12月24日 17:07
行业资讯 浏览:897

谁能想到," 崩 " 也成了一种上热搜的新姿势。回顾 2024 年,微软、腾讯云、支付宝、美团、阿里云、微软、百度地图、网易云音乐等多家头部互联网企业相继发生 App 崩溃事件,引发网友热议。

美团崩了,外卖点不了;百度地图崩了,导航面临挑战;微软蓝屏故障,很多人工作直接受影响……不少人从这一次次的系统故障中深刻体会到,互联网对生活工作的影响无处不在,认清网络安全之重要。

我们梳理了 2024 年至今影响范围较大的十起互联网宕机事件,并按照对人们的影响将它们分为五个级别,从轻到重进行了排列。

五星:全球性事件

四星:国内,影响 B 端

三星:国内,影响 C 端,工作相关

两星:国内,影响 C 端,生活必备

一星:国内,影响 C 端,非必须

下面,我们就一起看看这些宕机事件的 " 名场面 ",以及背后的原因都是什么。

网易云音乐半年崩两次 音乐播放等异常

时间:2024 年 8 月

评级:

8 月 19 日,不少网友反映,网易云音乐页面出现 " 服务器发生错误 ",音乐播放、加载等均出现异常。随后," 网易云音乐崩了 " 登上微博热搜。

此次故障持续时间近两个小时,期间有传言称,故障因 " 网易云音乐开发者删库跑路 "。对此,网易云音乐官微回应称,没有删库,没有跑路,因基础设施故障,导致网易云音乐各端无法正常使用。

值得一提的是,今年 3 月,网易云音乐也曾因系统故障登上热搜。彼时,网易云音乐登陆状态失效,需要重新登录。网易云音乐客服回应称,登陆情况异常是网络异常导致,与版本更新无关,故障在一段时间后修复。

中国移动系统故障 用户无法登陆

时间:2024 年 10 月

评级:

10 月 21 日,多位中国移动用户反映,中国移动客户端和官网等无法登陆,充值等业务无法办理。

当晚,中国移动广东公司官微发文回应称,10 月 21 日 15:47 起,中国移动广东公司陆续接到客户反映,官方 App 无法登录、充值等业务无法办理。技术部门迅速开展故障排查,发现负载均衡设备异常,导致业务系统不稳定。经过紧急处置,系统服务已于 17:06 全面恢复。

百度地图短暂崩溃 定位出现错误

8 月 7 日,百度地图因为系统问题崩上热搜。当天中午,有网友在社交平台反映,百度地图出现自驾路线无法正常规划、定位错误等问题。紧接着," 百度地图崩了 " 登上微博热搜。

百度地图客服对此回应称,目前百度地图系统确实出现错误,服务器正在紧急修复中。当天下午,相关问题已修复。

美团 APP 因系统升级崩了 外卖服务无法使用

时间:2024 年 4 月

4 月 26 日,有网友在社交平台表示,美团 APP 崩了,主页面无法加载,外卖等服务无法使用。

对此,美团官方客服表示,目前系统正在升级,可能导致部分用户的主页面无法加载,已在紧急处理。等系统升级后,就会自动恢复正常。

双 11 支付宝崩了 无法正常支付

时间:2024 年 11 月

在双 11 大促即将收官之时,支付宝又崩了。11 月 11 日,不少网友表示遭遇支付宝异常无法付款,付款时显示 " 重复扣款 "" 支付失败 " " 服务异常 " 等。还有网友称,支付宝出现余额宝提现未到账、花呗还款扣款成功但账单没清等。随后," 支付宝崩了 " 登上热搜榜第一。

支付宝官微对此很快作出回应,称 " 因系统消息库出现局部故障,导致部分用户的支付功能受到影响。该故障不会影响用户的资金安全,截止上午 10 点 50 分故障已经修复。"

4 月 9 日," 支付宝崩了 " 也曾登上微博热搜,部分网友反映支付宝无法使用,用不了蚂蚁森林等功能。对此,支付宝客服表示,今日确有系统异常报错,少量用户访问部分页面时出现了短暂性的访问不畅。这一情况已经快速恢复,用户的资金和信息安全都不受影响,各项功能也都可以正常使用。

大周一 企业微信文档崩了

时间:2024 年 12 月

评级:

12 月 2 日上午,不少着急开例会的网友反映,企业微信文档崩了,页面打不开,多项功能无法使用。

随后,企业微信文档官微发文称," 因访问激增,部分企业微信文档出现文档打开异常,目前已完成修复。"

WPS 三个月崩了四次 在线文档无法使用

时间:2024 年 9 月

9 月 6 日,"WPS 崩了 " 再度冲上热搜。大量网友反馈 WPS 出现在线文档无法打开的故障。而这已经是该应用三个月内第四次宕机。

8 月 21 日 WPS 就因发生服务异常而引发热议。当天下午,WPS 客户服务官微回应:经紧急修复,WPS 服务已恢复。作为补偿,8 月 22 日 0 点 -24 点,所有用户可以免费领取 15 天会员。

7 月 8 日上午,"WPS 崩了 " 也曾冲上热搜。随后,WPS 客户服务致歉称," 因服务异常给大家添麻烦了,大家反馈的问题我们在火速排查并修复,服务已恢复正常。"

另外,在 6 月 28 日下午,也有不少网友反映 "WPS 崩了 ",金山文档打不开。金山办公当时向媒体回应称,崩溃原因或与云服务异常有关。

阿里云服务器故障 小红书、B 站崩上热搜

时间:2024 年 7 月

评级:

在数字化时代,云服务被广泛应用,涉及众多企业和个人用户。因此,云服务宕机的影响辐射范围往往也更广。

7 月 2 日,"B 站崩了 "" 小红书崩了 "" 恋与深空崩了 "" 酷安都崩了 " 等多个词条登上微博热搜。不少网友反馈称,B 站视频评论区及个人主页无法正常加载,浏览历史、消息界面、客服界面等均出现访问故障。小红书等应用也都出现网络异常问题。随后,有消息称,此番连锁故障与服务商阿里云有关。

同日,阿里云客服向媒体回应称,上海地域可用区 N 网络访问出现异常,经过处理现已恢复,但 B 站服务器不是阿里云的。

据了解,阿里云在近几年曾多次出现服务故障。2023 年 11 月,阿里云产品控制台访问及 API 调用出现使用异常,导致 " 淘宝又崩了 "" 闲鱼崩了 "" 钉钉崩了 " 等话题相继登上微博热搜。2022 年 12 月,阿里云爆发香港 Region 可用区 C 大规模服务中断事件,导致多个香港及澳门站点受到影响。

今年以来,B 站也曾多次服务器崩溃,用户无法正常访问,此前官方解释因服务器负载过高。

腾讯云服务器故障 1957 个客户报障

4 月 8 日," 腾讯云崩了 " 冲上热搜。不少网友反馈称,腾讯云出现服务故障,网页显示 504 错误,服务器网络连接不上,控制台无法访问。

当天下午 4 点 45 分,腾讯云官微回应称,官网控制台相关服务出现异常,工程师紧急修复中,部分地区已恢复。下午 5 点 16 分,腾讯云在微博称 " 整体已恢复 "。

4 月 14 日,针对此次故障,腾讯云官方发布复盘及情况说明。说明显示,此次故障一共持续了近 87 分钟,期间共有 1957 个客户报障。云 API 异常导致控制台登陆不上,而依赖云 API 提供产品能力的部分公有云服务,也因为云 API 的异常出现了无法使用的情况,比如云函数、文字识别、微服务平台、音频内容安全、验证码等。

腾讯云表示,此次故障最根本的原因,是在版本变更过程中,没有有效执行沙箱验证和预案演练,暴露了在变更管理上的不足,接下来将从提升系统韧性、强化变更管理与保护措施、增强故障响应与沟通能力等几个方面快速进行改进和完善,以减少故障的影响范围和影响时长。

微软蓝屏,一桩全球 IT 灾难级事件

时间:2024 年 7 月

评级:

微软蓝屏故障,可谓今年内影响范围最广、损失最大的一起宕机事件,波及至少 20 多个国家,被认为是一桩全球 IT 灾难级事件。

7 月 19 日,全球约 850 万台装有 Windows 操作系统的计算机出现 " 蓝屏 " 死机现象,出现故障的终端并不限于桌面终端,还覆盖了大量的服务器和云节点,而且相关主机重新启动后依然会自动进入蓝屏状态,反复崩溃。紧接着," 微软蓝屏 " 登上微博热搜。

由于微软蓝屏故障,美国、英国、德国、荷兰、西班牙、波兰、比利时等 10 多个国家的部分机场、车站、码头及媒体、电信、银行等行业的运营受到影响。另外,多国的石油、天然气、电力、股票、货币和债券交易商都在 19 日当天难以正常展开交易。

而导致这一历史事件的主角是美国网络安全企业 CrowdStrike。CrowdStrike 的一个错误更新导致受影响的电脑和服务器无法正常启动,迫使它们陷入了恢复启动循环。CrowdStrike 在全球范围内被广泛用于管理 Windows PC 和服务器的安全。

值得一提的是,在此次全球微软蓝屏事件中,国内企业受到的冲击很小。因为 CrowdStrike 是个典型的 B2B 企业,其安全控制软件多部署在企业环境中,个人家庭电脑此次受影响很小,国内受到波及的主要是少数使用 CrowdStrike 软件的外企。

写在最后:

过去一年,互联网应用宕机事件几乎每个月都有发生,虽然大多都在 2 个小时左右的时间修复,但还是给用户的生活和工作造成不便。而网友在吐槽应用崩溃导致的糟糕使用体验之余,更是将宕机事件与各个大厂的裁员行为联系了起来,认为 " 大厂裁员裁到大动脉 ",波及到了相关技术、运维团队的正常运作。

不过,这种言论也仅仅是网友的调侃或猜测,真实原因难以考究。理论上来说,一个成熟的互联网公司,边缘业务可能会因为人才流失受到影响,核心业务基本不可能,大规模宕机事件更多是技术层面的问题。

比如上文提到的,支付宝、百度地图、网易云音乐、美团短暂崩溃都是因为系统故障或升级引起的,阿里云服务器故障是因为上海地域可用区 N 网络访问出现异常,微软蓝屏事件是第三方安全软件的锅,腾讯云崩溃则暴露了在变更管理上的不足。

随着互联网应用发展愈加成熟,硬件安全早已不成问题,但技术系统软环境的安全仍有待完善。互联网企业尤其是头部企业,除了分析总结宕机原因,还应对系统架构进行优化,比如增强服务器的冗余设计,定期进行系统测试和演练等。

此外,各类应用交替出现故障,考验平台基础设施、技术能力和修复速度的同时,如何做好用户运营亦受到关注。平台通过官方渠道及时告知用户问题和大致恢复时间,避免用户产生误解和恐慌。像 WPS、网易云音乐那样给用户补偿会员也是一种方法。

最后,作为用户,衷心希望各大厂商能够筑牢网络安全 " 防火墙 ",宕机事件不再频繁上演。

暂无评论
头像
0/1000
匿名