焦点·洞察
宕机、多云、成本与新机会上周,AWS 遭遇长达五小时的宕机事故,从 Netflix、Roku 到麦当劳以及自家的电商业务、物流业务 Amazon Flex 都被波及,这既显示出 AWS 庞大的客户群体,同时也向企业客户提出一个问题:企业只使用 AWS 或单一云服务商,够吗? 根据 AWS 发布的事故原因分析报告,此次宕机的原因是 AWS 内部网络服务之间的联系出现问题。简单来说,AWS 通过内部网络支撑其 AWS 网站上的海量产品和服务,客户利用控制台或命令行终端购买、部署这些服务,而当 AWS 内部网络运行出现故障的时候,一些严重依赖 AWS 内网的产品就出现了问题。 更进一步,由于 AWS 内部网络与产品之间复杂的设计,尽管并不是所有 AWS 服务受到影响,但某个产品里的 API 无法使用,也意味着这个产品不可用,甚至连客户反馈问题的「联络中心」也因为网络问题无法使用,当然,用于监控服务可用性的监控面板也不可用…… 也是在上周,一家主打多云战略的公司 HashiCorp 上市,或许是 AWS 的负面案例太过明显,市场对多云公司给出了积极回应,这家售卖多云管理工具的公司,市值已突破 150 亿美元。 过去十几年时间里,「弹性可扩展」、「低成本」、「敏捷性」、「可靠性」等等词汇不断出现在云计算的市场宣传里,这些词构成了云区别与传统 IT 或自建数据中心的优势与特点,但现在,我们有必要重新审视一番云的这些优势。 其一,云计算公司在提供「弹性可扩展」的同时,也通过复杂的产品服务组合稀释「低成本」。 想了解 AWS 的账单以及计算方式有多复杂,只需通过「aws bill+optimization」作为搜索关键词就能看到巨大的市场供应。 投资公司 a16z 今年发表了一篇质疑云计算的分析文章,像极了皇帝穿着「新衣」上街,只有一个「小孩儿」提出问题的情形,它试图指出一种可能:公司,特别是创业公司,不要被云计算的低成本入门产品所迷惑,稍有不慎,云计算成本就会吞噬公司的利润。 其二,任何一个系统,都不可能维持 100% 的可靠性。主流的云计算公司会给出 99.9999% 的可靠性承诺,但哪怕到了小数点后面第几位,再强大的云服务商依然有宕机的可能,AWS 几乎每年都有一到两次的长时间故障,微软 10 月份经历了 10 个小时的宕机,这些被广而告之的故障,连同更多因为影响范围小而没有披露问题,构成了当下云计算的「可靠性」。 在这个背景下,一开始为了解决「云厂商锁定」的多云产品也有了新的用武之地,HashiCorp 在其 IPO 招股说明书给出了一个数字,约 79% 的财富 500 强公司已经下载了该公司的工具。这既说明了 HashiCorp 的产品能力,同时也将多云的市场需求展示出来了。 美国连锁零售巨头 Target 就是一个典型案例,通过使用 HashiCorp 的多云管理工具,Target 的应用既运行在自己的数据中心,也使用了微软 Azure、Google Cloud 的服务。而在 Target CIO Mike McNamara 看来,之所以这么做,与所谓「多云」并没有太直接的关系,该公司希望保持对 Target 内部部署和管理的控制,这样如果 Google Cloud 变得昂贵,就可以将工作负载转移到 Azure,反之亦然。 亚马逊创始人贝佐斯曾说过这么一番话: I very frequently get the question: ‘What’s going to change in the next 10 years?’ And that is a very interesting question; it’s a very common one. I almost never get the question: ‘What’s not going to change in the next 10 years?’ And I submit to you that that second question is actually the more important of the two – because you can build a business strategy around the things that are stable in time. …
贝佐斯大意是说,不要关注未来十年有什么新变化,公司应该把战略放在那些不变的事情上,在云计算领域,公有云也好,混合云也罢,「低成本」、「弹性可扩展性」、「可靠性」等,这些都是客户不变的需求,这是云计算公司的新挑战,也是新机遇。 |