阿里云重大故障如此频频,一个新问题浮出水面:当越来越多合作伙伴受到“伤害”,阿里云是否还能继续赢得大客户的信任?
作者|杨 铭
编辑|刘珊珊
“安全稳定”,是阿里云官网的slogan。现在,阿里云又一次让合作伙伴深深失望。
7月2日,“小红书崩了”和“B站崩了”两个数十亿阅读量的话题,空降微博热搜榜前列。
据第一财经报道,B站App几乎“瘫痪”,无法使用浏览历史关注等内容,消息、更新、客服各大界面均不可用,用户无法评论和发弹幕,视频评论区和UP主主页无法加载。差不多同时,小红书、酷安、深空之眼等平台也有诸多用户反映,平台内容无法正常刷新。
阿里云此后通报称,阿里云监控发现上海地域可用区N网络访问出现异常,经阿里云工程师紧急介入处理后,10:42访问异常问题恢复。
上述通报证明,小红书、B站、酷安等几大年轻人聚集地崩盘根源,或是因为将服务器放在了阿里云上。酷安网在线@阿里云,催促“搞快点”;深空之眼手游则直接点名,是由于阿里云服务器发生区域性故障导致。
这是阿里云最新一起重大崩盘事故。去年双11落幕之际,淘宝、闲鱼、阿里云盘、钉钉等一众阿里系产品纷纷崩盘,故障规模之大、影响之广,堪称史诗级事件。
更早一些时候,阿里云香港机房制冷设备故障,宕机时间超10个小时,导致多个香港及澳门的站点受到影响。
毋庸置疑,对云计算公司而言,安全性与可靠性都是最重要的,这是阿里云在官网标榜的slogan。和阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭确立的“用户为先、AI驱动”变革战略,也有着类似目标。
同样,阿里巴巴董事局主席蔡崇信在云栖大会上有类似发言:“从阿里云计算第一行代码开始,我们就希望让计算成为像水和电一样的公共服务。”
但小红书、B站、酷安的又一次重大崩盘事故,表明阿里云从上至下的自我变革,还是没有从根源上修复问题。
因此,抛开阿里云重大故障为何如此频频“老生常谈”追问,一个新的问题浮出水面:当越来越多的合作伙伴受到“伤害”,阿里云是否还能继续赢得大客户的信任?
01
再受伤害的大客户
云头条报道称,阿里云此次事故是光缆断了所致。
无论如何,公共服务或者底层基础设施出现问题,受伤害最大的是将服务、数据放在云上的客户——尤其是,那些用户数千万甚至数亿的大客户,一旦因为云服务让业务全面瘫痪,其损失和影响难以估量。根据阿里巴巴集团2023财年年报数据,阿里云企业客户超400万家。
最初,中小企业是阿里云主要客户群体。前阿里云总裁胡晓明曾对《财经》谈到,中小企业在阿里云客户中占到80%。这一度成为阿里云的护城河,也是阿里云从2014年开始,每年都在行业发动“价格战”的底气。
但过去几年,云计算竞争从跑马圈地抢规模,进入精耕细作追求盈利阶段,大客户成为国内所有云厂商平台竞争高地。
有业内人士表示,对云服务平台而言,大客户具有很强的独特优势:高客单价、付费能力强,生命力强、抗风险能力强,续费能力强。同时,也有助于平台建立行业标杆和品牌效应。
IDC《中国中小企业生存现状报告2022》显示,中国中小企业ICT(信息通信技术)总支出占中国企业ICT总支出的比例仅约30%;中大型、龙头企业总支出占70%。
这基本符合“二八定律”。阿里云、百度云、腾讯云、华为云因此纷纷在战略、组织、产品等方面各出奇招,试图获得更多大客户信任。
以阿里云为例,早在2016年4月,发布了专门针对中大型企业、政府的专有云 Apsara Stack平台,给阿里云带来了大量现金流和利润,胡晓明就曾在采访中提到,20%的大客户,才是为阿里云贡献利润的主力。
对大客户来说,当“降本增效”成为主流,为减少自建IT系统成本,也愿意将服务和数据放在云平台上。目前月均用户达3.41亿的B站,从2016年开始就和阿里云进行合作,双方合作范围非常广泛,从内容智能分发,到资源的弹性伸缩,都在合作范畴。
如今每月有超2亿用户的小红书也是如此。2018年,小红书将类别由购物改为社交后,就把决策业务长在阿里云上。到2023年1月,阿里云已成为小红书第一大云资源供应商。搜索、广告、社区等在线业务场景,以及其他少量业务,都相继规模化用上阿里云的产品及解决方案。
显然,无论是小红书、B站这样拥有数亿用户的大客户,还是酷安网、深空之眼这样的中小型企业,上云主要目的是节省成本,而非承受某些时刻突如其来的“闪崩”。
“尽管云故障很常见,但阿里云还是让我们时常担惊受怕。”一位参加过云栖大会的某科技公司CMO说。
出现故障后,官方会根据SLA协议(服务合同)进行相应赔偿事宜。比如,因阿里云故障导致月度服务可用性达不99.90%,也就是故障时间超过43分钟,就得赔偿30%月度费用的代金券。
对企业来说,这些代金券的赔偿,看上去微不足道。因为一旦发生大范围“崩溃”事件,除了经营方面的直接损失外,还有品牌、商誉的间接损失,甚至更为惨痛的客户流失。
以B站为例,这次服务器崩溃事件无疑给品牌形象和用户信任度带来了严重打击。
不完全统计显示,短短几小时内,B站就有超百万用户遭遇各种程度的服务中断,真实感知到了“断水、断电”后的“互联网荒漠”景象。
因此,许多忠实用户在社交媒体上表达了他们的失望和不满,有人甚至威胁要转向其他视频平台。这种负面情绪的蔓延,可能会对B站的长期发展造成不利影响。
02
稳定性和可靠性担忧
从行业角度看,云服务厂商频繁的崩溃事件,再次凸显互联网平台面对海量用户、复杂系统时,能否保证系统稳定性和可靠性的担忧。
根据美国著名安全工程师提出的“海因里希安全法则”,一次大故障背后,一定有几十次轻微事故,几百次未遂先兆,上千条潜在隐患。
对阿里云而言,如此高频重大故障事件背后,意味着阿里云内部有着太多潜在隐患和不稳定因素,这会让越来越多的客户,对阿里云的可靠信任度下降——毕竟,谁也不想某个时刻遭遇“闪崩”。
事实上,对企业来说,完全将服务寄托在云上还有其他风险。2017年,A站在一次宕机后给出的理由是系统升级,根据爆料,实际上是因为A站拖欠了阿里云的账款。
事件背后,其实体现了一个深层次问题:云厂商,已然成为合作互联网平台的“生死掌控者”。
这些让所有企业意识到,数据和鸡蛋一样,不能放在同一个“篮子”里——混合云、自建云、多云部署成为新常态。从2021年开始,以失去字节跳动海外业务这个大客户为标志,阿里云大客户开始逐步流失。
市场是最好镜子。据IDC数据显示:在国内IaaS市场,阿里云市场份额从2021年上半年的38.6%降至2022年下半年的32.6%,增速也慢于15.7%的行业平均值。此外,在 IaaS+PaaS市场份额也从36.7%下降至31.9%。
其实或迟或早,阿里云都注定会流失一些大客户。一方面,华为云、腾讯云以及三大运营商正在强力崛起,贴身肉搏,客户有着更多选择。以及字节跳动、京东云、拼多多等自建云能力的成熟,“租不如买,买不如建”思维正影响越来越多的大客户,包括拼多多也减少了在腾讯云上的投入。
另一方面,由于To B业务的复杂性,交付成效差、技术服务支持不足案例比比皆是,甚至不乏烂尾工程。“每日人物”就引用一位阿里云员工的说法称,有一个金额巨大的特大项目,阿里云与客户相谈甚欢,“一拍即合,真金白银投入了机器、人还有钱,最终发现合同都没签,项目烂尾。”
最重要的原因,还是频繁的故障,让越来越多的客户认为阿里云的安全性不足,无法保护他们的数据和运营安全。
面对故障,阿里云内部其实也高度重视,几乎所有高管都是把安全和稳定挂在嘴边。一个说法是,香港宕机事件后,“高层震怒”,阿里云CEO的张建锋卸任,时任阿里集团一号位的张勇亲自挂帅阿里云,额外成立了一个“稳定性团队”,在每个产品部门里设置专人负责。
到2023年初,关于安全和稳定的举措再上台阶。在阿里云CTO周靖人的主导下,每位员工要在OKR里加上“维护某某项目的安全与稳定性”,并设置了“安全分”,分数关系员工年终奖和晋升,在绩效打分体系有严格排序(强制分布的规则)的阿里,这几乎是将安全责任“分包到户”。
这些“能想到的都用上了”的安全措施,效果最终有限,从去年双11到现在,短短半年内又连续出现两次严重故障。
03
谁是阿里云的解铃人?
频繁安全故障背后,是阿里云一系列的内部震荡。
人事上,最高管理层频繁更替。阿里云从2009年成立到现在,已经换过七任一把手。而自香港宕机事件以来,短短一年半内,阿里云相继迎来张建锋、张勇、吴泳铭三大掌门人。
张勇
最高人事变动,带来组织架构的频繁变化。先是张勇以云钉解耦,否定张建锋推出过云钉一体战略——钉钉独立,与阿里云解绑,各自发展。而在吴泳铭掌舵后,就推翻了张勇的决定,不再推进云智能集团的完全分拆,盒马鲜生、菜鸟上市也放缓。
“一朝天子一朝臣”,与之伴随的,是阿里云成为裁员重灾区,包括吴泳铭在阿里集团发起的“削藩运动”中,中高层人才大量流失。曾领导阿里云智能计算平台事业部的贾扬清、阿里M6大模型带头人杨红霞、阿里云首席商业官蔡英华、阿里云中国区总裁黄海清等大牛,纷纷被迫离开了阿里云。
典型如去年12月离职的蔡英华。2021年3月,张建锋挖来原华为企业业务中国区总裁蔡英华,空降阿里云出任阿里集团资深副总裁(M7),这是阿里云罕见的从竞争对手直接挖来高级人才。其目标很明确,对标华为云打法,进一步开拓政企大客户市场。
在阿里云一年多时间,蔡英华引入了一些华为的方法论,如各大区实施经营责任制,将原中国区、国际事业部将统一升级为七大区域等等。但是,在张勇离开后,不在吴泳铭战略规划中的蔡英华,抱负尚未完全施展就遗憾离开。
但是,吴泳铭会继续掌舵阿里云多久也是疑问。2023云栖大会开场前,一张“谁是C位”照片在媒体中间流传。照片上,走在C位的是蔡崇信,以及阿里云创始人王坚。
而进入2024年,从“极点商业”观察来看,吴泳铭出面为阿里云站台的次数也不多——哪怕是通义千问 2.5 大模型发布大会,登场的也是阿里云CTO周靖人。
事实上,吴泳铭也很难将大部分精力放到阿里云上。这是因为,吴泳铭还同时担任着阿里巴巴集团CEO,以及兼任淘天集团CEO。
其最重要的任务是,在电商格局重置的变阵关头,面对拼多多、京东、抖音电商的进攻,如何稳住阵脚并着手进行防守反击。
问题是,毕竟代码都是人写的,来自管理层和组织架构的激烈动荡,将无可避免影响着阿里云每位员工的心态和工作——更严重的是,倘若优化人员过程中,没有做好“衔接工作”,那么还有可能发生不可控事件。2020年3月,微盟就发生过程序员“删库事件”。
“海因里希法则”下的潜在隐患,也就越来越多。这或许是阿里云始终无法从根源上,彻底解决重大故障频繁的原因。
如今,吴泳铭掌舵下的阿里云,也有诸多积极变化。在“AI驱动、公共云优先”基调下,阿里云走上大模型开源路线,AI大模型在智能终端上的应用,成为阿里云着力抢占的“下一站车票”。
同时,通过阿里战投方式,阿里云投资控股月之暗面等大模型独角兽企业。另外,阿里云还在极力扩大下游应用朋友圈,今年上半年官宣超过20家应用厂商或机构达成合作,涉及领域包括汽车、芯片、交通、光伏、矿山等。
吴泳铭
但从业绩来看,仍是处于下降通道。尽管阿里云在2024年持续全面下调产品和服务价格,但无论是2024年财年营收,还是2024年第一季度营收,增速都只有3%,低于2022-2023财年的3.5%,是阿里内部增长最慢的业务集团。相比2019—2022年财年,84%、62%、50%、23%的增速,更是差距甚远。
由此看来,吴泳铭想成为阿里云的解铃人,也不容易。
唯一可以确定的是,阿里云连续“崩溃”数次,越来越多客户对阿里云的稳定性产生了质疑。
“国内大模型尚处在商业化探索阶段,对我们来说,更为追求安全、稳定和高可靠。”一位企业的负责人就说,当下环境竞争激烈,性价比、稳定性、服务质量方面,对企业来说阿里云早没有之前的先发优势。
最终,多云、混合云、混合多云部署,也就会成为更多大客户的必然选择。小红书就是如此,除了最大合作伙伴阿里云,如今还和腾讯、华为、AWS等云服务商建立了合作。
那么,小红书接下来会降低和阿里云的合作力度吗?