语音的突破口是企业市场、Deepfake 的争议、机器学习的信任链条

Issue #097 2021-06-23

📢 Editor’s Note

语音技术还在不断发展之中，但更多的应用创新出现在企业市场，通过「语音+行业知识」的结合，在降低成本的同时，提升客户体验，才是一项 AI 技术落地的关键，本期「AI Insider」会提供几个思考角度。

Deepfake 不仅深刻改变着人们对于人物影像真实性的认知，还在衍生出一系列新技术、职业以及应用场景，本期会做一些总结与盘点。

本期「AI Insider」还将关注：

巨头：英特尔架构调整、AWS 签下法拉利汽车、微软扩大中国数据中心数量；
未来驾驶：百度新进展、特斯拉披露超级计算机规模、亚马逊持续投资自动驾驶；
趋势：AI 伦理调查报告、机器学习信任链条、中国云计算支出规模等；

焦点·洞察

为什么语音的方向是在企业市场

从 2016 年到 2018 年，我会在不同的场景下看到下图或类似下图的变形：

这是有着「互联网女皇」之称的 Marry Meeker 在其互联网报告里一张图，就像这幅图的标题所言，在人类人机交互的时间线上，基于语音的交互正在成为未来。

2016 年开始，中国智能音箱市场正式开启，无论是先入场的阿里、百度还是后续的小米、华为，上面这幅图所阐释的理论、类亚马逊 Echo 的产品设计、低廉的价格以及对万物互联的各种承诺，都让语音与智能音箱牢牢绑定在一起，迅速成长为一个颇为热闹的市场。

但热闹的市场背后，消费者与厂商们并没有获得「应有的价值」，一方面，智能音箱天然是一种固定设备，这极大限制了其应用场景；另一方面，语音技术依然很傻，用户对智能音箱的期待与技术不合格之间的差距，使得用户很难建立起使用语音交互的习惯。

而对于厂商来说，赔钱赚吆喝的行业规则根本无法持续。

Meeker 指出了技术发展的未来趋势，但现状是，从苹果、亚马逊到阿里巴巴，这些当下中美最强大的技术公司，即便可以做出一台台所谓的智能音箱，但它们更像是语音数据收集工具，还需要更强大的机器或者廉价的人类劳动力，去解决「听见」、「听懂」的问题。

语音技术本质上不仅是要解决机器获取人声，更是要「识别」与「理解」，就目前来看，机器的语音识别准确率已经超过了人类，这既是智能音箱厂商前几年反复强调的技术突破，也为接下来语音在其他场景的应用提供了基础。

从宏观层面上分类，语音技术在消费市场和企业市场的应用场景与需求截然不同。

首先，在消费市场，从智能音箱到手机语音助手，这些语音交互场景都是开放式的，换句话说，机器所需要处理的是一个完全没有规则的交互逻辑，由此也给语音语义理解带来巨大困难。

比如第一代 Siri 出现的时候，人们迫不及待地想知道这个被乔布斯「钦定」的应用到底有多大威力，「调戏 Siri」一度成为全球性的话题，但很快，Siri 就被「玩坏」了，越来越多的用户发现，Siri 实在是太「傻」了，不仅功能单一，而且还无法真正理解人类复杂的语言体系。

其次，企业市场的语音应用场景更垂直化，以在线教育为例，利用语音合成和 VR 技术，可以构建起虚拟名师的形象，这个过程里的语音技术，其处理的需求都是集中在在线授课场景中，相对简单。

另一个值得关注的场景是医疗领域的语音电子病历，这里涉及到语音输入、识别等过程，最终形成结构化的病例数据，电子病历之外，包括导诊机器人在内的众多医院设施都具有语音交互的潜力。

这个市场有多大呢？下面是两张对比图，今年被微软 197 亿美元收购的语音技术公司 Nuance，其 2018 年医疗业务营收达到 9.9 亿美元，而 2019 年中国语音市场中的医疗健康细分领域规模只有 4 亿元人民币，预计 2022 年才能达到 10 亿元。

呼叫中心与客服也是一个典型场景，我曾在微软收购 Nuance 之后推断微软会将呼叫中心作为语音技术的发力点；在中国，大量的语音客服出现在电商、电信的业务推广甚至售后服务之中。

与其他企业市场类似，企业市场的语音玩家们也高度集中，上周，IDC 的一份报告也透露，2020 年疫情冲击下，语音语义软件的需求进一步向头部公司集中，其中阿里在该领域增长态势最为迅猛，年增速高达 96.6%，超过百度 59.8% 和科大讯飞 24.3% 的增幅。

综上来看，语音技术还在不断发展之中，并且更多的应用创新出现在企业市场，通过「语音+行业知识」的结合，在降低成本的同时，提升客户体验，才是一项 AI 技术落地的关键，至于智能音箱或语音助手，距离成为你我心目中的萨曼莎（电影《Her》里的语音机器人）还有很长一段路。

巨头

英特尔。英特尔的调整还在继续，本周该公司宣布计划成立两个新业务部门：

计算加速与图形计算部门
软件和高新技术部门

前者聚焦高性能计算和图形技术发展，由英特尔副总裁 Raja Koduri（曾在 AMD 和苹果工作过）负责；后者则是通过软件的方式「驱动英特尔的愿景目标」，负责人是前 VMware CTO Greg Lavender。

与此同时，负责英特尔网络业务的资深高管 Sandra Rivera，也将成为英特尔数据中心业务的负责人，这个业务包括 Xeon 芯片、FPGA 等面向数据中心的芯片产品。

微软。Bloomberg 披露，微软将在 2022 年初增加四座中国数据中心，3 月份的时候，微软已经表示将扩大位于北京的数据中心规模。

目前微软的核心业务，包括 Auzre、Office 365、Dynamics 365 等，都是由世纪互联运营，这是海外云计算公司在华运营的基本模式。

不过在中国市场，本土云计算公司拥有巨大的市场份额，阿里云、腾讯云、华为云更具市场竞争力。

AWS。上周，法拉利汽车公司宣布与 AWS 达成合作，AWS 将为这家汽车公司提供存储、机器学习、数据分析等服务。

整个合作还包括车辆设计、测试、车主会员运营以及法拉利 F1 车队的数字化运维等多个方面，从合作的范围来看是一个非常大的合同，不过双方没有透露具体的合同金额。

与硅谷科技公司的公开政治游说类似，这几年越来越多的科技公司也在招募前政府官员，关注白宫动向的媒体 Politico 本月初做了一篇调查报道，焦点是 AWS 如何利用前政府官员的关系快速「抢占」联邦政府以及其他关键部门的云计算需求。

台积电。WSJ 上周提出了一个非常尖锐的议题：芯片正在变得如此重要，但整个世界仅仅依靠一个位于台湾的台积电，是不是太脆弱了？

文章很长，我个人认为上面这张图很重要。

AI Insider Monthly

「AI Insider Monthly」以月度总结的形式，展现过去四周全球 AI、云、自动驾驶等领域的产业变化，通过分析行业事件与梳理技术趋势，勾勒出人类迈向数字化的若干方向与线索。

5 月份的「AI Insider Monthly」，将关注以下议题：

巨头·行业大会：阿里云财报与线下峰会、Google I/O 大会、微软开发者大会；
行业·趋势：企业软件的四个趋势、机器学习与环境、腾讯云架构调整、芯片领域新趋势；
未来驾驶：交易（融资）、观点与新进展；
资源·观点：三份 AI 相关的调查报告、一组 AI 相关图书推荐等；

本期内容还提供了 PDF 版本，欢迎下载：

国内镜像；
海外镜像；

产业观察

由 Deepfake 衍生的争议、职业以及新应用场景

作为当下最具争议的技术之一，Deepfake 深刻改变着人们对于人物影像真实性的认知，今年 3 月份的时候，一位日本 Twitter 男用户利用 Deepfake 技术生成女性图片，很快积累大量粉丝，你可以在这里查看这位不存在的美女用户，而该账号的运营者是一位 50 岁的日本大叔（下图的对比），他在一档电视节目里解释了一切。

更进一步，基于 Deepfakes（不限于图像，包括音频视频）的犯罪已经成为 AI 犯罪的主要类型，加州大学洛杉矶分校去年发布了一份报告，按照危害等级、资金损失等四个维度做了区分，如下图所示：

目前来看，基于音视频的 Deepfake 正在成为主要威胁。这也是相对开放/开源的 AI 研究成果与越来越便宜的计算能力相结合的「产物」。而通过自然语言相关的犯罪行为还很少，但我们也不能过分乐观，毕竟 GPT-3 已经展示了足够的潜力。

与此同时，在另一个阵营里，围绕 Deepfake 技术及其应用，还有几个值得关注的方向。

其一，用技术对抗 Deepfake。比如 Google 开源了 3000 个 AI 生成的视频数据库，用于对抗 Deepfake。

社交媒体是 Deepfake 的泛滥地，过去几年 Facebook 不遗余力地对抗 Deepfake 技术，从举办挑战赛到推出检测 Deepfake 造假的 Deepfake-detecting software，FB 希望在技术与品牌层面成为抵制 Deepfake 的「模范公司」。

但正如斯坦福大学一个检测 Deepfake 项目研究者所言，随着 Deepfake 技术的持续提升，检测技术将长期处于追赶的阶段，我们应该通过「非技术的方式」，比如培养一定的媒体素养来识别这些虚假视频或图像。

斯坦福大学的这个机器学习模型，通过识别说话人的嘴形与所说的声音进行匹配检测，从而找到细微的不同，可以实现对 Deepfake 视频 80% 的检测成功率，你可以在这里查看这项研究。

其二，Deepfake 衍生出的新职业。虽然包括微软、FB 等公司都在大力研发检测 deepfake 的技术，但当下仅仅依靠技术并不能完全应对不断升级的 Deepfake 影像/音频。

因此，从新闻机构到大公司，Deepfake 分析师的需求越发明显，这类工作所需要的技能，既包括对 GAN（生成对抗网络）的技术认知，同时还需要新闻记者的事实核实技能，从而为其他部门或客户提供相应的技术支持。

某种意义上，这也构成了围绕 AI 取代人类工作的一个观察维度——当机器「消灭」一部分职业的时候，还在创造另一些新职业。

其三，Deepfake 之于电影制作及更大层面的应用。Slate 本月初报道了电影制片人 Garrett Gilchrist 利用 Deepfake 技术修复上世纪电影的心得体会，这篇长长的访谈并没有谈论太多技术，更多还是从电影制作的角度展开叙述。

与此同时，Fortune 此前报道过一家名为 Metaphysic 的 Deepfake 技术供应商，这家公司通过类似 PaaS 的形式将 Deepfake 技术卖给不同行业，其客户包括广告服务商、电影工作室等，而在其营销的过程中，Metaphysic 高管反复强调该公司对应用领域的「控制」，包括禁止成人内容以及政治宣传等。

最后，回到 Deepfake 的关键技术 GANs，关于 GANs 是什么的解释里，我一直非常喜欢微软亚洲研究院的这篇文章，感兴趣的读者可以先读一下。而在 GANs 的应用中，除了「换脸」、「脱衣」这类噱头应用外，还有大量颇具潜力的应用场景，比如这里有 18 个典型应用，绝大多数停留在图像领域，但即便如此，也可以看到 GANs 对于整个 AI 领域的颠覆意义。

报告·趋势

皮尤的一份报告显示 AI 伦理发展的「缓慢进度」。这份报告调查了 602 位科技公司高管，其调查结果包括：

68% 的受访者表示，关注公共福利的 AI 伦理不会在 2030 年前普及；
相比于 AI 伦理，受访者的态度显示当下 AI 的焦点是利润与社会控制；

你可以在这里获取这份 127 页的报告。

机器学习的信任链条。过去几年，随着大量机器学习数据集、开源工具的出现，机器学习的门槛被大大降低，研究者、开发者很多时候无需进行重复工作，直接使用开源社区上的工具即可。

从这个角度去看，机器学习已然成为一种基于信任的领域，研究者/开发者「默认」自己所采用的公开数据集或开源工具是安全且值得信任的，这也构成一个威胁：如果有人在这些数据集或开源工具中恶意注入带有偏见的数据或代码该怎么办？

你可以在这里查看 CSET 的这份报告，通过拆解机器学习不同流程中的威胁，提供了几个解决方案。

Canalys：一季度中国云服务支出 60 亿美元。我目前还没有拿到 Canalys 的这份报告，结合新闻稿来看，有几个要点：

其一，相比去年，2021 年一季度的云计算支出显著上升，Canalys 给出的增长数字为 21 亿美元，但增速放缓，如下图，这很大程度上也是因为疫情等一系列不确定因素的后续影响。

其二，全球范围内，中国是仅次于美国的第二大市场，中国云计算支出的比例占全球 14%；

其三，中国市场的四大玩家为阿里云、华为云、腾讯云和百度智能云，四家的总和已经达到 8 成，市场集中度很高。

未来驾驶

百度的自动驾驶新进展。百度上周发布了第五代 Robotaxi 产品「Apollo Moon」，这款车是与北汽旗下的极狐合作，官方的新闻稿写道：

依托百度Apollo全球领先的自动驾驶技术积累，Apollo Moon采用“ANP-Robotaxi”架构，不仅让共享无人车套件轻量化，还可与智能驾驶汽车数据共生共享，打造超强数据闭环。Apollo Moon具备全传感器及计算单元冗余，完善的失效检测及降级处理策略，支持5G云代驾、V2X等功能。整体相较上一代车型能力有10倍提升，复杂城市道路送达成功率高达99.99%，在领航辅助驾驶ANP独立闭环的基础上，Apollo Moon还搭载了来自禾赛的定制激光雷达和相应无人驾驶冗余，拥有完全无人驾驶能力。

简单来说就是两点：其一面向按需出行场景的数据、体验优化；其二，车辆成本，百度给出的数字是 48 万元（车辆+后期加装所有成本），这个价格大概是目前 L4 自动驾驶车辆成本的三分之一。

这对市场以及消费者来说都是一个重要的信号，短期来看，无论是价格还是体验，L3 以及更高阶段的自动驾驶车辆不会成为消费者购车的主要选择，基于按需出行的 Robotaxi 将继续承载自动驾驶企业的核心业务并定义技术发展方向。

值得注意的是，百度董事长李彦宏借助「留言」的方式表示：Apollo Moon 共享车「必须要比打车便宜」。

福特汽车收购了一家软件 AI 公司 Electriphi。这家公司利用 AI 和机器学习技术为电动车公司提供电力能源软件开发和运营，其软件能够大幅优化电池使用效率，并通过路线规划、天气和司机匹配等方式，进一步提升车队的运营效率。

特斯拉披露其用于自动驾驶训练的超级计算机。在最近召开的计算机视觉学术会议 CVPR 上，特斯拉 AI 高级总监 Andrej Karpathy 分享了该计算机的部分细节，整个计算集群拥有 720 个节点，每个节点采用 8 块英伟达 A100 80GB 的GPU，共计 5760 块 GPU，理论的算力突破 1.8EFLOPS，这个数字在全球超级计算机排行榜上位列第五。

值得一提的是，这个演讲进一步强调了特斯拉在自动驾驶方面的路线：继续坚持基于神经网络的软件路线，而非以激光雷达为代表的硬件路线。

你可以在这里观看CVPR 会议期间的自动驾驶部分演讲，全长 8 个半小时。

另外，马斯克本周在 Twitter 上表示，特斯拉计划在一个月后或稍长时间里举行「特斯拉 AI Day」，旨在展示特斯拉在 AI 软件与硬件领域的新进展，并招募更多 AI 人才。

亚马逊继续在投资自动驾驶。多家媒体披露，亚马逊计划买下自动驾驶卡车创业公司 Plus 20% 的股份。Plus 公司瞄准的是 L4 级别的自动驾驶运输业务，该公司的核心产品是软件系统 PlusDrive，此前，亚马逊刚刚向这家公司采购了 1000 辆配置 PlusDrive 系统的自动驾驶系统卡车，中国顺丰也是其客户之一。

亚马逊去年已经全资收购了自动驾驶公司 Zoox，本周 Zoox 披露了该公司一系列保障驾驶安全的措施，虽然是一个市场营销层面的展示，但可以作为了解自动驾驶安全的一个切入口，感兴趣的朋友可以在这里详细查看。

华为公司优化自动驾驶规控的算法专利。新京报贝壳财经援引企查查的专利摘要称，「本发明涉及自动驾驶领域，具体公开了一种自动驾驶规控算法优化方法，可提高对大量仿真结果的分析效率，优化自动驾驶规控算法」。

以上就是本期「AI Insider」的全部内容，再次感谢您的支持，有任何问题或建议，欢迎写邮件给我：zhaosaipo@gmail.com