大数据与 AI、巨头们的机器学习、英特尔重启开发者会议

Issue #110 2021-11-04

📢 Editor’s Note

本期首先通过一份报告回答这个问题：「当机器学习、大数据与 AI 放在一起的时候，这个领域会发生怎样的变化？」

苹果、Google、Meta，这些公司的机器学习侧重点是什么？本期带来一个导览。

与此同时，本期还将关注：

英特尔重启开发者大会；
微软向企业客户提供 GPT-3 以及超大规模语言模型的争议；
AWS 财报的几个信息；
一份关于中国军事 AI 采购的研究报告。

焦点

当机器学习、大数据与 AI 放在一起的时候

「人工智能的刀耕火种时代已经过去了」，这是我在 2021 年不同场合听到的一句表达，其潜台词是：需要使用工业化或工程化的思维重新梳理围绕人工智能的研究和应用。

这也构成了一个观察人工智能发展的新角度：当机器学习、大数据与 AI 放在一起的时候，这个领域会发生怎样的变化？

投资人 @mattturck 绘制了一幅围绕上述三个领域的企业全景图，如下图所示（大图参见这里）。

这其中有几个有趣的观察。

其一，机器学习算法的突破，让企业数据拥有了可释放的价值，反过来又推动企业数据基础设施的发展，包括数据仓库、数据湖等产品的创新层出不穷，而 Snowflake、Databricks 等公司的崛起，也体现了巨大的产业需求。

其二，「AI+数据」的一站式服务平台正在兴起，数据是当下 AI 的关键，但数据，特别是标注数据的缺失又是企业的常态，与此同时，存放在不同服务商的数据进一步增加了从数据获取价值的难度，这也催生了以 Dataiku 等为代表的一站式平台的兴起，构成了一个个围绕数据的 Stack。

其三，微观领域，从 MLOps 细分出来的 ModelOps 成为热门概念。

其四，关于中国 AI 基础设施的发展，我个人认为这是一个喜忧参半的状况。一方面是中国在数据与 AI 基础领域的众多新突破，包括但限于 AI 芯片、算法、数据库以及超大规模语言模型等，而且中国云计算也处于高速发展期，基于云的数据和 AI 交付能力，为更多企业创新以及 AI 落地提供了可能性。

但也需要看到，上述这些技术突破并没有向全球范围进行扩展，既没有利用开源社区形成全球性的生态，也没有利用企业出海或全球战略影响到其他地区，很多时候，上述这些技术与产品，更像是一个围墙花园的一朵朵花儿，非常遗憾。

产业观察

巨头们的机器学习侧重点

过去几年，围绕机器学习/深度学习，各大巨头构建起了强大的基础研究团队，并利用自身的资金、平台以及产品优势，持续扩大其在 AI 领域的号召力，由此也形成了在机器学习/深度学习领域的不同思考和布局。

接下来我会列举几个要点：

DeepMind：无论是早期的 AlphaGo 还是 Muzero 以及去年令人震惊的 AlphaFold，强化学习始终是这家公司关注的重点；
OpenAI：从 GPT-1 开始，OpenAI 就在继续挖掘 Transfomer 模型的潜力，成为超大规模语言模型潮流的开创者；
Meta：无监督学习构成了 Meta（Facebook）在 AI 领域的核心算法布局，并进一步延伸到「自我监督学习」领域，不过效果如何还有不少争议；
Google：目前 Google 的 AI 主要由云平台提供，这其中 AutoML 是核心平台，在此基础上形成了一系列算法突破；
苹果：作为全球最关注隐私的硬件设备公司，苹果引入联邦学习作为解决隐私保护与机器学习困境的方法之一，感兴趣的朋友可以看看这篇论文；

除此之外，包括微软、阿里巴巴、亚马逊在内的巨头，都在机器学习多个领域有布局，但可能是各个方向过于平均（或者说过于强大），无法凸显其特点，这并非一件坏事，毕竟，只有可以落地的机器学习算法才是「好」的机器学习系统。

巨头·AWS·Meta·微软

AWS。上周，亚马逊发布新一季财报，其中来自 AWS 的营收为 161.1 亿美元，同比增长 39%，超过分析师的预期。

另一组数字则显示，现在亚马逊 15% 的营收都来自于 AWS，财报分析师会议上，亚马逊 CFO Brian Olsavsky 表示，疫情之下，企业客户开始大量向云端迁移，这是 AWS 快速增长的重要原因。

与 AWS 高速发展形成映照的是亚马逊增长放缓，原因也不外乎工资上涨引发成本上升、疫情导致的劳动力短缺以及供应链问题，这也使得该季度亚马逊的整体营收同比仅有 15% 的增长。

而投资市场也再次提出是否应该分拆 AWS。

在全球范围监管科技巨头的背景下，亚马逊的三大业务－－电商、第三方电商与 AWS－－显然已经是各国政府的靶子，电商的垄断、第三方平台的抄袭、AWS 的云锁定，都是亚马逊接下来发展的巨大不确定性，通过分拆可以减少监管带来的冲击，同时疫情何时结束还是一个未知数，其影响也会持续触及到电商平台的盈利。

但 Andy Jassy，这位一手创建 AWS 的现任亚马逊 CEO，可能比其他人更清楚一件事：AWS 会成为亚马逊未来利润的主要来源，这让使得短期内 AWS 独立出来的可能性几乎不存在。

回到 AWS 161.1 亿美元的季度营收，到底是哪些云产品在赚钱呢？NextPlatform 做了一个模型，将 AWS 的产品分成计算、存储、网络和软件，并根据产品线的发展情况给出了一个预估，如下图所示：

事实上，鉴于 AWS 复杂的产品线以及更复杂的产品组合，外界很难计算清楚不同产品的具体营收情况，但上面这个图反应的变化态势，特别是软件产品的增长曲线，也是当下云计算产业的缩影。

另外，FT 上周披露了 AWS 的一个重磅客户：英国情报系统。

据了解，这项合作始于今年早些时候，双方签署了超过 10 年、总价值 6.9 亿到 14 亿美元的合同。AWS 将提供包括机器翻译、语音识别等技术，FT 援引英国情报部门负责人的话称：AI 将成为保卫国家安全的核心。

Meta。上周，Facebook 正式改名为「Meta」，马克·扎克伯格在公开信里谈道了新公司愿景：

From now on, we will be metaverse-first, not Facebook-first. That means that over time you won’t need a Facebook account to use our other services. As our new brand starts showing up in our products, I hope people around the world come to know the Meta brand and the future we stand for.

而在本周，Meta 宣布将在未来几周内关闭面部识别系统，并将删除多个利用面部识别系统的服务。

根据此前的数字，在 Meta（Facebook）2019 年推出面部识别之后，大约有 1/3 的用户（约合 6.43 亿）开启了这个服务。

另外，Meta 展示了与 CMU（卡内基梅隆大学）共同研究的「人造皮肤」 ReSkin，这是一种类似于橡胶的材料，大概 2 到 3 毫米厚度，可以贴在机器人手臂上，帮助机器人感知压力，更重要的一点，ReSkin 的生产成本非常低，大概只需要 6 美元/片。去年的时候，Meta 还发布了类似的传感器 DIGIT。

IBM。作为和麦当劳战略合作的一部分，IBM 将收购这家连锁巨头的 AI 实验室「McD Tech Labs」，2019 年的时候，麦当劳通过收购 Apprente 公司组建了该实验室。

CNBC 称，收购完成后，该实验室将继续探索围绕语音技术的订单处理系统，而 IBM 还将自身的自动化软件系统部署到麦当劳的市场推广之中。

以色列 AI 芯片创业公司 NeuReality 本周宣布与 IBM 达成合作，双方将共同研发高性能的 AI 推理平台，并将探索在 IBM 混合云平台部署 AI 芯片。

在应对气候变化成为公司发展重要战略的当下，相应的气候产品也在出现，比如 IBM 最近发布的「Environmental Intelligence Suite」，这是一个 SaaS 类产品，提供了一个气候分析工具，帮助企业提前预判天气对供应链的潜在影响，另外还有一个碳排放的分析工具，基于自然语言分析系统，对公司的数据进行分析和处理。

微软。微软本周发布基于 GPT-3 的 Azure OpenAI 服务，官方博客称，目前还是一个「仅限邀请」的产品，被邀请的企业客户能够以 API 的形式获取超大规模语言模型 GPT-3 的核心能力。

微软官方博客也分享一个应用场景：在体育比赛期间，通过 GPT-3 的能力快速总结现场解说的要点，并转化为比赛亮点供用户快速查看，同时市场营销部门基于 GPT-3 自动生成相应内容，并利用来自社交媒体的反馈，形成更好的内容传播。

微软与 OpenAI 的合作始于 2019 年，当时微软向这家公司投资 10 亿美元，我在当时的会员通讯里分析过微软的动机：

微软很缺一个对标 DeepMind（Google 旗下）的机构。坦率来说，微软的基础研究能力一点也不弱，其 AI 基础研究的机构和部分也是业内公认的「黄埔军校」。但微软的这些机构，包括微软研究院、微软亚洲研究院的研究成果基本局限在行业内的宣传，与 DeepMind 围棋 AI 横扫全球公共讨论有着巨大的差距，而 OpenAI 在这个领域拥有丰富的经验，此前他们对于 GPT-2 模型的舆论宣传，可谓相当到位。

2021 年，微软获得超大规模语言模型 GPT-3 的独家授权。

过去几年，超大规模语言模型的发展轨迹正在成为一个新的「摩尔定律」，如下图所示，这几乎是一个每年 10 倍的增长曲线。

在「模型越大，效果越好」的背景下，这股竞赛还在持续，传闻明年的 GPT-4 将拥有更大的规模，AI 学者 Julien Simon 在一篇文章中列举了大规模语言模型的「N 宗罪」，包括但不限于对环境的影响、高昂的成本（拒绝小公司）等等，他也提出了几个建议，比如探索更小的模型、基于云服务的 AI 模型等等。

英特尔。时隔四年之后，英特尔重启面向开发者的行业峰会，并将原来的 IDF 改名为「On Invocation」，这是新任 CEO Pat Gelsinger 「新官上任」之后的又一把火。

英特尔现在的处境非常尴尬，从企业市场到消费市场，越来越多的「xx Silicon」，正在冲击英特尔在通用处理器领域的地位。

更重要的是，在诸如机器学习、深度学习等专用场景里，英特尔和英伟达的距离也越来越大，后者现在的市值大概是英特尔的 3 倍。

正是在这样的背景下，这场会议显得尤为重要。首先，英特尔需要再次讨好开发者，一个个开发者所形成的虚拟社区，这是 X86 架构的优势所在，特别是在 1997–2017 期间，一年一次的 IDF 影响力与号召力塑造了强大的英特尔，现在，英特尔需要重新捡起来。

值得一提的是，现任 CEO Pat Gelsinger 恰好也是推动英特尔在 1997 年举办第一届 IDF 的人，当时他是 CTO。

其次，继续拉拢合作伙伴，比如 AWS 上周宣布将推出基于英特尔 Hanbana 芯片的 AI 计算实例，此举对英特尔至关重要，并在官方博客里做了更详细的说明。

另外，包括 Google、阿里巴巴等已经拥有自研处理器的巨头，也在此次会议上展现了与英特尔合作的计划。

过去几个月，在新 CEO Pat Gelsinger 的改革之下，英特尔一方面加快战略转型，另一方面推进产品优化，同时又重新开始谈论开发者和生态，这些其实是这家公司过往的优势所在，在完整错过移动互联网并即将错过人工智能热潮之后，英特尔现在以及接下来都在做一件事：留在牌桌上。

业界·其他

GitHub 公布 AI 产品 Copilot 的成绩单。这个产品同样是基于 OpenAI 的技术，为工程师写代码的时候提供建议，GitHub 给出的数字显示，在某些编程语言场景下，Copilot 能够完成 30% 的工作。

另一方面，根据纽约大学的研究，大约 40% 由 Copilot 生成的代码存在漏洞或问题。

吉利公布两款车规级芯片计划。吉利旗下的芯擎科技将在 2022 年量产号称是「中国第一颗 7nm车规级SoC芯片」，并计划在 2024–2025 年推出「 5 纳米制程的车载一体化超算平台芯片和高算力自动驾驶芯片」。

乔治城大学研究机构 CSET 新报告谈中国军事方面的 AI 支出。这份报告的数据来自公开采购合同，其中的几个要点：

AI 技术目前还是采购的很小一部分；
每年预估的 AI 技术采购费用是 1.6 亿美元；
包括自动驾驶、预测分析、信息战在内的技术与设备是采购的要点；
2010 年成立的私营企业成为重要的技术/设备提供商；

你可以在这里下载这份完整的报告。

Adobe 的新项目或许就是一个 Deepfake 工具。上周 Adobe 发布了 Project Morpheus，这是一个基于神经网络引擎（滤镜）构建的视频编辑工具，可以修改视频里的人物表情，但 Verge 认为，这就是一个 Deepfake 工具，而这发生在行业越发使用 Deepfake 技术替代 Photoshop 进行图像修改的背景之下，「Morpheus 表明，Adobe 可能很快就会赶上」。

以上就是本期「AI Insider」的全部内容，再次感谢您的支持，有任何问题或建议，欢迎写邮件给我：zhaosaipo@gmail.com

这封邮件是 Dailyio 的付费邮件，但我欢迎您将这封邮件转发给您身边关注或从事 AI 与云计算的朋友。并希望您向更多人推荐「AI Insider」。