Issue #032 2020-03-30

本期「AI Insider」,你将看到以下内容:

  • 头条:从数据标注到端到端平台,AI 淘金热里的「铁锹」们;
  • 巨头:微软的一周:收购电信虚拟化创企、云服务需求激增以及停止投资面部识别公司;
  • 巨头:腾讯视频会议产品出海,华为海外智能手机语音助手;
  • IPO:寒武纪招股说明书中的四个要点;
  • 融资:中国版「Palantir」明略科技获得3 亿美元投资;
  • 影像:从计算机产业角度,这部两个半小时的纪录片讲述了人工智能的一切历史;

头条:AI 淘金热里的「铁锹」们

马克·吐温曾对 19 世纪美国兴起的「淘金热」评价道:「During the gold rush its a good time to be in the pick and shovel business」。

简言之,在这场「面向金子的游戏」中,那些提供工具的公司赚得盆满钵盈。

而在面向人工智能的赛道上,类似的场景也正在发生,这些人工智能领域的「Pick and Shovel」,既有数据标注、模型压缩等单点产品,也有端到端的一体化平台。

1.数据标注

已标注的数据对于当下 AI 公司意义重大,目前绝大多数的 AI 产品和研究都采用监督学习,这意味着需要大量已标注的数据,从而可以快速训练自己的机器学习模型。

在这个领域,既有一些打着技术公司旗号的「劳动力密集型」公司,也有一些希望利用自动化标注实现规模化发展的真正技术公司。前者在中国、印度等劳动力廉价的地区非常常见,后者的一个代表是创业公司 Scale AI,这家公司专注于汽车领域的数据标注,目前估值超过 10 亿美元。

另外值得一提的是,AWS 在 2019 年为SageMaker 加入了数据标注服务「SageMaker Ground Truth」,既有自研的机器标注方式,也可以利用亚马逊的「土耳其机器人市场」快速标注数据。

但这个领域充满了不确定性,新的算法和越发自动化的数据标注,不断挤压着市场空间,未来数据标注服务或许不复存在。

2.数据集增强

数据集增强与「数据增强(Data Augmentation)」的概念类似,都是为了克服数据量少的难题。

其中最有潜力的一个领域是合成数据,这是一项允许人工智能从业者「制造」训练模型所需的数据的技术。 随着合成数据保真度的提高,它将使机器学习的成本大大降低。

合成数据领域,自动驾驶的应用最为广泛,几家数据公司如Applied IntuitionParallel Domain 以及 Cognata,提供的就是计算机视觉领域的数据工具。

另一个值得关注的领域是「数据策展」,通过评估和修改数据集预训练的工具,以优化模型训练运行的成本、效率和质量,代表性的创业公司为 GradioAlectio

更进一步来看,还有一些公司希望可以摆脱「大数据」的困境,也就是探索利用少量数据和非标注数据训练模型,比如「半监督学习」的相关尝试,可以大量减少成本,斯坦福大学的 Snorkel.ai 就是一个值得关注的项目。

3.模型优化、部署与监测

当企业准备好了数据,接下来的工作就是构建机器学习模型,但当下很多机器学习模型的搭建过程异常复杂,既需要时间,也需要消耗大量算力(算力即金钱),因此如何优化模型搭建过程、减小模型部署时的复杂度就变得异常重要。

这些工作是一些端到端 AI 平台所能提供的功能,不过也有一些创业公司加入其中,比如一家名叫 SigOpt 的公司,关注模型参数优化;而在模型部署领域,创业公司 AlgorithmiaSeldon 都有自己的核心产品,其中 Seldon 等解决方案专门为 Kubernetes 架构设计。

4. 端到端的 AI 平台

上周,即将在香港 IPO 的旷视科技开源了 AI 生产力平台 Brain++,包括深度学习框架MegEngine、深度学习云计算平台MegCompute、以及数据管理平台MegData。与此同时,华为也在其开发者大会 2020 正式开源 AI 计算框架 MindSpore

在国内,百度早在 2016 年就已经开源了针对深度学习的开源框架 PaddlePaddle,并在随后几年里不断升级迭代,2019 年,PaddlePaddle 拥有了中文产品名称「飞桨」,同时,其产品定位也从「开源框架」升级为「开源平台」。

事实上,除了上述这些开源产品以及国外大名鼎鼎的 Tensorflow、Pytorch 等开源产品外,包括阿里云、AWS 等云计算巨头也有自己的 AI 端到端平台产品。

阿里云在 2019 年升级了机器学习平台 PAI(Platform of Artificial Intelligence),提供了面向传统机器学习和深度学习的一整套数据处理、模型训练、服务部署等服务。AWS 则拥有 SageMaker,提供完全托管于云服务上的机器学习端到端平台。

另一方面,一些创业公司,如 DataRobotH2O.ai 也提供类似的产品,但这些创业公司的产品往往被认为是一种「入门级」的解决方案,并不适合构建复杂的模型。


巨头

微软的一周:收购、云服务需求激增以及面部识别投资策略调整。上周,微软宣布收购专注电信运营商虚拟化的创业公司 Affirmed,TechCrunch 报道称,这家公司此前已经完成 1.55 亿美元的融资,其客户包括 AT&T、Orange、Vodafone 等电信巨头。

凭借 Affirmed 的客户群,这笔收购为微软进入电信行业提供了新跳板。电信公司对于虚拟化的需求,以及 5G 带来的巨大市场空间,都使得这个领域变得足够诱人。此前 Google Cloud 也在努力推进其边缘云产品在电信市场的占有率,并与 AT&T 实现了合作,路透社的报道指出,拥有 8000 万 5G 用户覆盖能力的 AT&T 将通过 Google 边缘计算技术,进一步提升用户访问移动网络的安全性

根据微软 Azure 官方透露的数字,新冠肺炎疫情催生了大量云服务需求,仅在上周,微软协同办公产品 Teams 日活用户超过 4400 万,Windows 虚拟桌面使用量增加了 3 倍。

微软上周还宣布了另一项重要决定:不再投资面部识别公司。Verge 的报道称,微软此前投资了一家以色列创业公司 AnyVison,但多家媒体报道,这家创业公司参与了以色列政府对于约旦河西岸地区的面部识别与监控。

在负责微软投资的 M12 公司的网站上,微软表示将调整投资政策,停止投资以销售面部识别技术为主的科技公司。

但正如 Verge 记者所言,微软虽然停止投资面部识别创业公司,但其公有云平台 Azure 依然销售面部识别技术:Face

腾讯面向海外市场推出视频会议产品。全球范围内新冠疫情极大刺激了视频会议产品的需求,《南华早报》报道了腾讯最新推出的一个面向海外的视频会议产品 VooV Meeting,目前已经推向新加坡、日本等 100 多个国家,这款免费产品每次可以举办 300 人的视频会议。

华为智能手机的海外语音助手。华为上周正式发布了 P40 系列智能手机,其海外版本没有任何一款 Google 服务,同时华为也为海外版本智能手机提供了全新的语音助手Calia,该语音助手会在 6 个国家发布,可实现英语、法语、西班牙语的语音交互。


创业公司

AI 芯片创业公司寒武纪即将登陆科创板。「资本侦探」对其招股说明书做了一番解读,这里列举几个要点。

其一,自 2017 年以来,寒武纪营收规模与亏损成正比。根据其招股说明书,寒武纪 2017年、2018年和2019年,营收分别为784.33万元、1.17亿元、4.44亿元。而连续三年分别亏损3.8亿元、4104万元和11.79亿元,合计约16亿元。

其二,AI 芯片领域的研发成本高昂,寒武纪在2017年至2019年的三年间,公司研发费用分别为2986.19万元、24011.18万元和54304.54万元,研发费用率分别为380.73%、205.18%和122.32%。

第三,寒武纪的竞争对手包括华为海思。2017、2018 年,华为贡献了寒武纪近九成的营收,但随着华为开始自研 AI 芯片,并发布「达芬奇架构」,自 2019 年开始,华为海思研发的麒麟芯片已经不再使用寒武纪的 IP 授权。

第四,寒武纪的商业模式为「Fabless」,也就是只做芯片设计而将制造各步骤外包给其他公司,这些供应商包括IP授权厂商、服务器厂商、晶圆制造厂和封装测试厂等。

其中,「晶圆主要向台积电采购,芯片IP及EDA工具主要向Cadence、Synopsys 和ARM等采购,封装测试服务主要向日月光、Amkor和长电科技采购」,这样集中的供应商机制以及集成电路领域的高门槛,意味着一旦产业链出现任何问题,寒武纪的经营将面临巨大挑战。

全球范围内的疫情还在持续,但在 AI、云计算创业领域,最近还是有几笔值得关注的融资。中国版「Palantir」明略科技获得来自腾讯和淡马锡控股 3 亿美元投资。《南华早报》的报道指出,这家成立于 2014 年的创业公司与美国 Palantir 公司有着同样的商业模式,其数据挖掘服务也被政府采用,用于发现犯罪、追踪毒贩和防止人口买卖。根据该公司透露的数字,其产品目前已经应用在中国 60 多个城市和地区。

Palantir 公司曾因为帮助美军发现本·拉登藏身地而一举成名,其投资人包括彼得·蒂尔,Bloomberg 做过一篇对于该公司的报道,推荐阅读。

提供云数据集成的创业公司 CData SoftWare 完成一笔 2000 万美元的融资,这家公司的主要产品是企业级市场软件服务,帮助企业从海量业务数据中发现潜在的机会。


影像:讲述人工智能历史的纪录片

上周,我花两个半小时观看了 Futurology 制作的纪录片「The History of Artificial Intelligence」,这个纪录片从计算机产业的角度介绍了人工智能历史的一切内容,有很多珍贵的影像内容,其中约翰·麦卡锡的访谈部分非常精彩。

如果你对人工智能的历史感兴趣,一定要看看这部纪录片,观看地址

这封邮件是 Dailyio 的付费邮件,但我欢迎您将这封邮件转发给您身边关注或从事 AI 与云计算的朋友。并希望您向更多人推荐「AI Insider」。
再次感谢您的支持,有任何问题或建议,欢迎写邮件给我:zhaosaipo@gmail.com
想修改您的订阅信息?
你可以 更新邮箱信息 或者 取消订阅.

Email Marketing Powered by Mailchimp