华为 AI 开源框架的疑问/旷视计划 IPO/脸部数据知情权

Issue #011 2019-08-27

本期导读：

研究：AI 算法在研究星系中的新进展、Google 研究者提出一项更好的手势翻译系统；
学术：迁移学习在 NLP 领域的现状；
资源：当下热门机器学习领域的论文、数据集、开源代码等；
观点：华为 AI 开源框架的几个疑问；
公司：旷视计划 IPO；
隐私/安全：脸部数据知情权、对抗 Deepfake；
业界：奥迪的 AI 概念车、Gmail 新特性等；

研究·开源

AI 算法在研究星系中的新进展。新的算法可以自主区分不同亮度的星系，而望远镜对于区分这两种星系而毫无作为。在其发布的论文里，研究人员展示了如何利用大量相近的星系图片来训练算法的机制，他们希望未来可以通过更大规模的数据集来提升算法的精准度。

Google 研究者提出一项更好的手势翻译系统。目前用于捕捉手势的算法并未取得真正突破，上周 Google AI 实验室的研究人员在一篇博客提出了一些新突破，这个方法通过机器学习来分析手部 3D 图片的关键点，从而建立其手部动作的跟踪机制，并且可以将该方法部署在智能手机上，这比之前只能在桌面电脑或者云端的机制有了巨大突破。

迁移学习在 NLP 领域的现状。作为机器学习的热门领域，迁移学习发展非常快，这篇长文梳理了迁移学习在 NLP 领域的发展情况，推荐一读。

机器学习论文和 Code 资源。如果你需要整理机器学习领域最新的论文、数据集资源，不妨来看看这个网站，它汇集了当下热门机器学习领域的论文、数据集、开源代码等。

补充链接：计算摄影开源图书。上周「AI Insider」推荐的了一本计算摄影的开源图书，其中国内镜像的链接有误，这里为大家更新一个新链接，如果你需要使用这个镜像，可以点击这里直接下载。

洞察·观点

如何开源、谁会用、如何用，华为 AI 开源框架的几个疑问

上周五，华为召开了一场 AI 芯片与 AI 框架的发布会，正式推出昇腾 910 芯片并介绍了 AI 框架 MindSpore 的基本情况，同时宣布这个 AI 框架将在 2020 年一季度正式开源。

浏览国内媒体的报道，几乎清一色的官方新闻通稿，这也从一个侧面展示了华为对于此次产品发布的舆论控制力度；另一方面，在当下这个微妙时刻，过多讨论华为产品也会被扣上不顾大局、不讲政治的帽子。

但我依然想从行业的角度多唠叨几句。

首先，昇腾 910 芯片亮相于 2018 年 10 月华为全连接大会，这是一个面向企业 CIO、开发者的技术会议，也正是在这次会议上，华为正式发布了自己的「全栈全场景」AI 战略。

其中，AI 芯片是这个战略的最底层产品，在经历去年「中兴事件的芯片悲情」后，舆论对于「中国芯」有着天然的关注度，而忽略了 AI 芯片与其他芯片的不同，这也构成了当时华为昇腾芯片传播的重要驱动力。

结合此次正式商用的昇腾 910 参数，这款应用于数据中心的机器学习训练芯片在算力表现上令行业关注，其中给出的一个测试结果显示，华为将昇腾 910 用于实际 AI 训练任务，在典型的 ResNet50 网络的训练中，昇腾 910 搭配 MindSpore 对比现有主流训练单卡配合 TensorFlow ，性能提升接近 2 倍。

值得注意的是，关于昇腾 910 是否会对外出售，目前尚无明确消息，而在去年的时候，华为曾表示不会对外出售。

其次，关于 AI 框架 MindSpore 的布局。如果说昇腾 910 是华为押注 AI 硬件的布局，那么MindSpore 则是软件领域的押宝，官方将其定义为「MindSpore 是支持端、边、云独立的和协同的统一训练和推理框架」。

这个布局并不难理解，AI 框架为企业、开发者提供了底层的 AI 开发部署环境，作为开发者或研究者，可以快速开展模型训练等机器学习的工作。当华为拥有了 AI 芯片之后，利用这个框架可以实现更完善的 AI 生态，这个战略思考与 Google 此前打造的「Tensorflow+TPU」组合颇为类似。

目前行业主流的 AI 开源框架包括 Google 的 Tensorflow、Facebook 的 Coffe2、微软 CNTK、百度的飞浆等，这意味着，MindSpore 未来将和这些互联网、软件巨头竞争。一个细节，不久前的百度 AI 开发者大会上，华为海思芯片刚刚宣布与百度飞浆建立战略合作，恐怕未来海思还是要回到 MindSpore 的阵营。

第三，MindSpore 几个疑问。仅仅透过几张 PPT，我们根本无法知晓 MindSpore 的技术能力，但这不妨碍从行业角度发出疑问，这里的一个核心问题是：华为对 MindSpore 的「开源」，到底是放在 Github，还是利用中国的开源社区？此前华为消费者业务软件总裁王成录曾这样说：

很可能在最近一两个月，中国的开源基金会会正式运营起来，这个开源基金会是完全工业化的、非盈利的、开放的，华为会根据大家贡献的排名来决定大家在社区的发言权。

另一个疑问，谁会用 MindSpore？如果以 Tensorflow 为例，MindSpore 的发展并不完全取决于华为，而是测试到底在中国有没有一个潜在的 AI 生态滋养这个开源框架？IDC 6 月份的一个报告展示了中国市场对于 AI 开源框架的需求，但当下中国 AI 开源框架的基本格局里，Tensorflow 遥遥领先，即便是发展多年的百度飞浆，也只有 7.9% 的市场份额。

最后一个疑问，开源的 MindSpore 与商业化的公有云之间是相互协同还是互相制约？AWS 可以自豪地宣布自己是运行 Tensorflow 实例最多的云计算公司，但你能想象阿里云某天宣布推出更好运行百度飞浆的计算产品吗？这是一个中国特色技术与商业环境下的现实选择。换句话说，开源的 MindSpore 更像是华为在公有云领域的一个棋子，当用户开始「免费」使用「开源」的 MindSpore 之后，事实上也将和华为云所绑定，我可以大胆预测，如果 Mindspore 2020 年一季度正式开源，2020 年华为云一定会推出更好支持 Mindspore 的计算实例、存储甚至数据库产品。

如果说过去华为是一家全球性的商业公司，那么在 AI 领域，华为的主战场只能在中国，这里的数据、客户以及政府资源，将成为华为 AI 发展的重要推动力，接下来的国内 AI 领域，竞争也将更加残酷。

商业·应用

旷视科技计划在香港上市

这家公司的核心产品是计算机视觉以及传感器的算法，其落地依然通过是终端设备——包括智能手机、公共摄像头、ATM 机摄像头——的图像数据，特别是脸部数据的识别来获得安全、商业的信息，阿里巴巴、蚂蚁金服、富士康等都是其客户。需要说明的是，这些客户也是其主要投资者。

根据披露的招股说明书，旷视科技 2016 年、2017 年和 2018 年，营业收入分别是 6780 万元、3.13 亿元和 14.27 亿元，但连续三年亏损，分别亏损 3.43 亿元、7.58 亿元和 33.52 亿元，而且近三年亏损持续扩大，2019 年上半年亏损为 52 亿元。

旷视科技给出的解释是，巨额亏损是由于优先股的公允价值变动及持续的研发投资。查阅招股书，旷视科技 2016年、2017年、2018年研发投入分别为 7820 万元、2.04 亿元、6.13 亿元。

旷视科技或许会拉来 AI 独角兽们上市的序幕，包括商汤、依图、云从等创业公司在过去几年获得资本市场的青睐，而这些公司无一例外都是计算机视觉的公司¹，他们或多或少参与了中国各地政府的脸部识别项目，是不折不扣的「to G（Government」类的 AI 公司，旷视科技也在其招股说明书里重点谈到了他们在智慧城市建设中的机会，比如下面两幅图反映的市场规模。

另一个与计算机视觉公司相关的小插曲是，澳大利亚智库 Strategist 发表了一篇长文，介绍一家来自中国的计算机视觉创业公司，他们在中国摄像头监控市场获得不小的份额，如今要在澳洲与当地教育机构和大学合作。

脸部识别的知情权

我们继续来谈脸部识别。FT 的一篇独家报道称，欧盟正在酝酿对于脸部识别技术的监管措施，这个措施的核心是保证欧盟公民对于脸部识别数据使用的知情权，从而限制商业公司和机构「不加区分地使用脸部识别技术」。其独家信源表示，根据该计划，欧洲公民将有权「知道何时使用（脸部识别）数据」，除了「严格限制」以确保适当使用。

欧盟在脸部识别技术的思考与之前的 GDPR 可谓如出一辙，公民知情权都被放在了首位。但在非洲的乌干达，不仅公民不知道自己的脸部数据是否被滥用，甚至不知道到底是谁在使用自己的脸部数据，直到警方公开承认，该国的脸部识别系统由华为提供。FT 的报道与此前 WSJ 的报道形成了呼应，WSJ 此前表示，华为员工帮助乌干达的情报人员监视该国的政治反对派。

脸部识别技术到底有多先进呢？通过亚马逊 AWS 旗下的 Rekognition 或许可以一窥端倪，目前这个系统已经监测并识别面部情绪，系统划分了开心、生气、悲伤、惊讶、沮丧、平静、困惑等特征。而在本月，Rekognition 又增了对于恐惧表情的识别。

报告：中国在 AI 领域依然落后美国

这份报告来自位于华盛顿的一家智库 CDI，报告从多个层面进行了对比，其中美国在人才、研究、开发和硬件方面处在领先地位，中国则在 AI 应用与数据方面保持领先，如下图所示。

欧盟在这份报告里的排名相对靠后，你可以在这里下载这份报告。

对抗 Deepfake

安全公司 Symantec 的一份报告指出，今年已经有 3 家公司被 Deepfake 相关技术欺骗，导致巨额损失。其中一个案例中，罪犯利用 Deepfake 技术冒充公司高管，要求公司财务将 1000 万美元打入一个私人账户。

FT 的一篇文章指出，目前包括 Symantec 在内的众多公司科研机构都在关注 Deepfake 领域，比如 Symantec通过研究视频或音频的来源来验证视频、音频的可靠性，而创业公司 ProofMode 和 Truepic 主要关注照片造假的检测。

Deepfake 领域的发展也相当迅速。Bar-Ilan 大学和以色列开放大学的研究人员日前发表了一篇论文，介绍了一种名叫「Face Swapping GAN（以下简称 FSGAN）」的系统。

根据其论文的表述，「FSGAN 可以在不需要在面部数据训练的情况下，应用于面部图像的生成」。研究人员在 FaceForensics ++ 中测试他们的系统，这是一个真实视频和合成AI生成视频的数据集。他们将系统的输出与经典的「faceswap」系统以及一个名为「face2face」的系统进行比较，FSGAN生成的图像比这些系统的输出更加逼真。

奥迪的 AI 概念车。上周奥迪发布了即将推出的 AI:Trail Quattro 的预览图，这是奥迪的第四款 AI 概念车，将于 9 月亮相法兰克福车展，不过如下图所示，该车拥有方向盘，因此不会是全自动驾驶车。

Gmail 增加 AI 检查拼写错误和语法建议特性。这些功能之前已经在付费版的 G-Suite 用户中得以应用，接下来几周 Google 会将其推向普通 Gmail 用户。根据 Google 官方博客的介绍，新功能类似于此前自动填充文字的功能，AI 会在用户输入时自动修正拼写，并提供语法错误的建议，以蓝线显示出来，这对提升非母语写作的效率可谓意义重大。

Naspers 正在发力机器学习领域投资。因投资腾讯而一举成名的 Naspers，目前正在加速在机器学习领域的投资，Bloomberg 的报道称，2018 年 Naspers 投资了 30 亿美元，其中包括印度食品配送服务公司 Swiggy 和俄罗斯分类网站 Avito BB，他们希望可以找到下一个腾讯。

我曾在今年 5 月份分析过这些公司，详见「中国 AI 独角兽们的微妙时刻」。 ↩

感谢您的订阅，如有疑问，欢迎写邮件给我：zhaosaipo@gmail.com

点击这里退订