智能手机 AI 的死胡同/NeurIPS 2019 收录论文/脸部识别、隐私与技术反击

Issue #012 2019-09-10

本期导读：

学术：2019 NeurIPS 2019 收录论文名单公布；
研究：AI 如何推进药物发现、Google 发布改进神经网络训练的 NSL、牛津大学开发黑猩猩的算法；
开源：OpenAI 介绍文本生成模型 GPT-2 的开放进展、微软开源对话式神经网络工具包 Icecaps；
洞察：智能手机的 AI 探索走进死胡同；
观点：如何建立一个可以信任的 AI 系统？
业界：脸部识别、隐私与技术反击、通过美国八年级科学测试的 AI、商汤、依图的上市传言、Oracle 机器学习策略；
案例：基于 Deefake 的声音诈骗、脸部识别的应用：不让球迷流氓进入球场；
创业公司：Cogito、H2O.ai、创新奇智；

研究·开源

2019 NeurIPS 2019 收录论文名单公布。这是机器学习领域年度盛会，今年的会议将于 2019 年 12 月 8 日——14 日在加拿大温哥华举办。上周，NeurIPS 公布了今年收录的论文名单，共计 1429 篇，包括算法、数据实现、概率、强化学习等，你可以在这里了解今年论文的主题，具体入选的论文名单在这里。

AI 如何推进药物发现。新药发现不仅成本高昂，而且相当耗时。AI 公司 Insilico 与多伦多大学的研究人员合作，仅仅使用 46 天就实现了类似新药试验的过程。根据其发表的研究，这项研究使用了当下流行的强化学习以及 GANs 技术。但必须注意：该研究成果仅仅是证明了一种可行性方法，并不意味着可以落地实践，也不意味着制药企业会采用这个方法。

Google 研究者创建用于改进神经网络训练的 NSL。NSL 全称为「神经网络结构学习」，这个框架可以解决缺少标记数据时的模型准确率难题，支持机器视觉、语言翻译以及预测分析。关于这个框架的具体介绍在这里，相关代码已经可以在 Tensorflow 上获得。

OpenAI 介绍文本生成模型 GPT-2 的开放进展。OpenAI 曾表示，考虑到该模型的危险性，不会一次性全部开放，而是采用增量式的阶段性开放方法。根据其最新的论文，OpenAI 认为该模型的开放过程并没有被滥用，目前已经不同领域的开发者将这个模型应用到其他领域，比如自动完成代码、语法帮助等，与此同时，OpenAI 也宣布将 GPT-2 的模型开放程度增加到 50%。

研究者发现面部表情与真实情绪并不完全相关。这项研究对于当下面部识别中的情绪捕捉提出了挑战，研究者发现，以微笑为例，人们微笑的原因很多，并不局限在快乐的时候。这也意味着，仅仅通过面部识别系统识别出微笑，并不能直接推断出人们的情绪，相关研究的解读在这里。

牛津大学开发识别视频中黑猩猩的算法。这个算法可以在视频片段中检测、跟踪和识别黑猩猩。研究人员对该算法进行了 50 小时的训练，这些数据来自几内亚的 23 只黑猩猩的视频，含有 1000 万张面部图像。根据其论文的介绍，该算法整体识别率为 92%，在效率上完胜人类，你可以通过这篇论文详细了解这个算法。

微软开源对话式神经网络工具包 Icecaps。这是一个智能对话引擎，可以根据不同场景提供对话能力，现在你可以通过 Github 获取这个工具包。

洞察·观点

智能手机的 AI 探索走进死胡同

时间来到 2019 年，不管是华为、Google 还是苹果甚至整个智能手机行业，都在面临一个行业性的难题：智能手机的下一步是什么？

过去两年时间，智能手机从屏幕尺寸、形状到解锁方式（面部解锁、屏幕下指纹）等方面的创新并没有回答这道难题，几乎与外观形态变化的同时，行业也开始思考如何将 AI 与智能手机结合在一起。

如果从芯片发布时间的角度去看，两年前华为发布的麒麟 970 的确是业界第一款搭载 NPU（神经网络处理单元）的手机处理器，不过，iPhone 8 系列所搭载的 A11 处理器，却是用户最早能买到的配备 NPU 的手机处理器。

这个时间差成为一种屡试不爽的市场话术，延续到 2018 年华为麒麟 980 的发布。比如麒麟是 980 是「业界第一款采用 7纳米制程的手机处理器」，但 iPhone XS 系列却是用户可以最快买到的搭载 7 纳米制程处理器的智能手机。再比如，麒麟 980 首次将 NPU 升级为双核，而苹果的 A12 并没有「追随」，只是用一个升级版的神经网络引擎做了某种意义的「回应」。

但在 2019 年的时间点去看，这个探索并不成功，首先必须明确一点，智能手机行业正在步入到一个成熟期。所谓「成熟期」的潜台词也是这个行业的增长红利已经消失，一如当年的 PC 市场，当用户对于手机的期望值越来越高，当用户不再每年都愿意更换手机，当手机体验越发同质化，即便强大如苹果，也在 2019 年向市场传达了一个基本信号：我们不是智能手机公司，我们是一家服务公司。

IDC 最新的一组数字显示，智能手机市场的确还有机会，再经历了 2018、19 年整体下滑后，接下来的 5 年时间还会有增长，但涨幅只有 1.1%，这几乎宣告了一点：未来 5 年是智能手机行业的洗牌期。

其次，AI 为什么救不了智能手机行业？以上周发布的麒麟 990 处理器为例，撇开其中的 5G 性能，单说 AI 能力，依然局限在图像、视频领域，这也是过去两年整个手机市场对于 AI 应用场景的基本认识。所谓的手机 AI，基本也是手机摄像头和相册的 AI，利用摄像头作为数据采集工具，分析所拍摄物体周围场景、基本形状，从而自动化调整拍照的色彩。

而在其他领域，比如语音、NLP 等 AI 发展迅速的技术领域，智能手机几乎无法触及，原因也非常简单，在手机电池无法保证的前提下，诸如语音、NLP 的本地计算并不能给用户带来真正的优化。需要注意的是，这里只是谈系统级别的 AI 能力，并不涉及大量第三方的手机 AI 应用，但即便放眼 iOS 和 Android 生态，在系统不支持相关能力的现实条件下，第三方应用可以发挥的余地非常小，而且也仅仅是局限在某些特定领域，比如语音输入（iOS 上还需要开放「完全访问」）、利用 NLP 过滤短信等。

第三，「5G+AI」的想象力到底在哪里？上周麒麟 990 发布会上有一张 Keynote 写道：「移动 AI 2.0= 5G+端侧 AI +云侧 AI」。这个逻辑没有问题，也是解决当下移动 AI 发展的必由之路，利用 5G 带来的网络优势，实现云侧 AI 模型训练后的实时部署，真正打通云、端的 AI 训练与部署。

但现实问题并不少。从 5G 发展速度来说，还是一个相当缓慢的过程，即便是中国这样基础建设速度较快的国家，一二线城市 5G 基站建设的速度与普及能力还需要一到两年，下图是 11 个中国大城市 5G 基础建设时间表；以过往 4G 的历史去看，从基站到用户设备以及运营商服务，整个产业链下游的整合还需要不少的时间。

更进一步，即便是 5G 网络可用、够用，所谓「云侧 AI 实施训练、端侧 AI 实施部署」的理想状态还会面临另一个考验：生态。有没有足够的开发者有能力、有意愿将 AI 能力集成到手机应用里？有没有真正杀手级别的 AI 应用出现？但一个行业逐渐进入成熟期，所谓的「生态红利」也将渐趋消失，「5G+AI」还能再造一个生态吗？

我不乐观。

商业·应用

观点：如何建立一个可以信任的 AI 系统？

这是知名 AI 从业者 Gary Marcus 在 NYT 的一篇文章，也是新书 Rebooting AI: Building Artificial Intelligence We Can Trust的节选部分。

这篇文章或者说这本书的核心，是在部分否定当下一些 AI 研究方法之后提出自己的想法。比如 Marcus 指出，当下机器学习热潮中，研究者并不在乎向机器传达类似「时空情景」的概念，由于没有时空概念，机器无法获取像人类这样的常识。在人类的认知体系里，任何特定动物的生命都始于出生，止于死亡；它在生命的每一刻都占据着空间的某个特定区域；两只动物通常不能同时在同一个空间；两只动物可以在不同的时间在同一空间等等。

正是基于这样的常识，人类可以做出诸多理性判断，但机器显然不具备这样的条件，Marcus 还举了一个案例，哲学家尼克·博斯特罗姆曾想象一个场景：一台强大的人工智能机器被指示制作回形针，却不知道什么时候停下来，最终把整个世界——包括人——变成回形针。

因此，Marcus 指出，当下 AI 领域面临一个十字路口：如果坚持现有的方法，那么必须采取更严格的监管，否则最终会走向「回形针」的悲惨结局；另一方面，开启新的研究思路，将因果关系、时空关系纳入到机器学习之中，从而推动机器产生常识。

基于 Deepfake 的语音网络欺诈

不久前我曾预测，在类似 Deepfake 技术的帮助下，利用声音的网络诈骗将越来越多，WSJ 就报道了一起最新案例，犯罪分子利用基于人工智能的软件冒充首席执行官的声音，命令下属将 22 万英镑转移到自己银行账户。

在这起案件里，一家英国能源公司的首席执行官认为他在和他的老板通话，他的老板是该公司德国母公司的首席执行官，这位操着德国口音的人要求英国公司把资金寄给一家匈牙利供应商，也正是这个口音，使得英国公司的负责人没有过多考虑而付了款。根据负责处理此事的保险公司的说法，打电话的这个人说请求很紧急，要求高管在一小时内付款，保险公司拒绝透露受害公司的名称。

这可能是第一起利用 AI 技术实施的网络欺诈，目前执法机构还无法应对这种状况，但绝不会是最后一起，未来类似的案例还会更多。

脸部识别、隐私与技术反击

一周前一个名叫「ZAO」的换脸产品引发国内科技行业热议，并且这个讨论还延续到了美国主流的科技媒体，这个讨论的范围从该产品的火爆一直延伸到了数据隐私，特别是脸部数据隐私，比如其用户协议里，有一段这样的表述：

在您上传及/或发布用户内容以前,您同意或者确保实际权利人同意授予ZAO及其关联公司以及ZAO用户全球范围内完全免费、不可撤销、永久、可转授权和可再许可的权利,包括但不限于可以对用户内容进行全部或部分的修改与编辑(如将短视频中的人脸或者声音换成另一个人的人脸或声音等)以及对修改前后的用户内容进行信息网络传播以及著作权人享有的全部著作财产权利及邻接权利。

这几乎也是一种 UGC 类网站用户协议的「标准模版」，却在这一次遭遇到了用户质疑，以至于也得到了包括新华社、人民网的「关注」，目前最新的信息是，「ZAO」更新了用户协议，如下图所示，

「ZAO」争议的背后，不仅是对用户脸部数据或滥用的担心，还涉及到了对技术所引发的一系列潜在风险的担忧。从技术门槛上看，「ZAO」所使用的 Deepfake 并不是什么新颖技术，即便是普通人，也可以通过开源产品，在自己的电脑上训练一个「换脸」项目。

但当这项技术被放在公共平台，比如社交媒体，则成为众多假新闻制作者的利器。上周，Facebook 启动了一项计划，将于包括微软、Google、MIT 等企业和学校合作，设置 1000 万美元的资助计划，号召更多的人参与到识别、检测 Deepfake 视频、图片的行动中，这是科技行业对于技术滥用的一次抗争。

用户对于脸部数据被采集的认知分裂也是全球性的问题。Wired 援引一份来自皮尤的调查显示，大约 56% 的美国人认为警察使用脸部识别是正常的。更具体的来看，大约 60% 的白人称他们相信执法部门掌握这项技术，但只有 43%的黑人受访者持这一态度。

可以通过美国八年级科学测试的 AI

这个名叫「亚里士多德」的 AI 系统由艾伦 AI 研究所研发，该系统在美国八年级（大概相当于国内初三）的科学测试里答对了 90% 的问题，而在十二年级的测试中，这个系统回答了 80% 以上的问题。

相比于四年前只有 60% 的正确率，此次「亚里士多德」可以说了相当大的进步。NYT 的报道称，艾伦 AI 研究所自 2013 年就开始了相关研究，旨在打造一个可以替代诸如象棋、游戏等测试 AI 基础能力的方法，而从「亚里士多德」目前的表现来看，机器的确具备了一定的自然语言理解和逻辑分析能力，但 NYT 援引一位微软研究者的话表示，「我们无法将这项技术与真正的人类学生以及人类的推理能力相提并论」。

脸部识别的应用：不让球迷流氓进入球场

WSJ 的报道称，丹麦一家足球俱乐部在 7 月中旬为自己的球场安装了配备脸部识别系统的摄像头，这套系统由日本松下公司开发。该俱乐部希望可以利用该系统将足球流氓挡在球场之外。

具体来说，俱乐部会在比赛前将过往上过黑名单的球迷照片上传到系统中，球迷入场时，系统识别出相关脸部信息后会发出预警，倘若报警无误，此时他们会安排一位保安去将该球迷请出球场。

对于数据安全与隐私，该俱乐部已经向当局申请使用该技术的许可，同时在入场时，会向所有人告知会收集和处理球迷的生物特征数据。松下也表示，该技术不会存储黑名单上的任何脸部数据，而根据该俱乐部的说法，每次比赛结束后都会删除相关信息。

商汤、依图的上市传言

在旷视科技正式提交 IPO 申请之后，外界对于中国其他两家计算机视觉独角兽公司——商汤、依图——何时 IPO 充满了好奇。Bloomberg 援引消息人士的话表示，依图正计划在中国科创板上市，时间预计会在 2020 年，目前这个消息尚无更多信源佐证。

与此同时，Bloomberg 也在跟踪商汤的 IPO 计划，在参加 Bloomberg 举办的一场活动上，商汤 CEO 徐立表示，该公司一直在全球定期做一系列路演活动，帮助投资者了解商汤目前的业务，不过暂时美元上市计划。

目前商汤的业务包括面部识别平台、基于视觉的机器人配送平台等，同时，商汤也在研发 AI 芯片，主要应用于数据中心的 AI 模型训练。

值得一提的是，徐立也表达了商汤与政府之间关系的看法，他表示，商汤不直接与政府做生意，不拥有也不访问客户数据，与公共部门的合作主要集中在制定人工智能道德准则上。

Oracle 的机器学习策略

Oracle 在近几年的云端转型中面临巨大困难，外界对于这家软件巨头未来如何适应云、机器学习感到好奇，ZDNet 记者深入到 Oracle 公司内部，梳理了当下 Oracle 的机器学习策略，比如在数据库层面，作为 Oracle 的核心产品，数据库产品早已集成了机器学习算法，通过异常操作的分析，建立起有效的预测系统，这也是近几年 Oracle 力推的自动化数据库产品；而通过 Oracle 的公有云平台，开发者和数据科学家也可以获取Oracle 在机器学习领域开放的能力和技术。

收购也是 Oracle 推动机器学习的重要策略。利用收购 DataFox，Oracle 可以将这家公司的 NLP 技术纳入到自己产品里，包括数字助理、Chatbots，以及可以自动化处理财务发票、报销的智能文档识别等。

而收购 Datascience.com，Oracle 踏入到数据科学家协作平台，利用 Oracle 的公有云服务打造了一个通用的数据科学平台，支持各种数据源和业界主流开发框架。

如果你对 Oracle 的机器学习探索感兴趣，一定不要错过这篇文章。

创业·融资

Cogito，这是一家实时情绪对话智能解决方案公司，其客户包括保险、金融等 B 端公司，利用 AI 提供一系列对话智能、情绪识别等产品。最近该公司完成一笔 2000 万美元的融资，投资方来自纽约人寿、高盛等，你可以在这里详细了解这家公司

H2O.ai，这是一家推动所谓「AI 民主化」的创业公司，其产品是机器学习平台。该公司希望将机器学习的能力带入到任何一家企业，即便这家企业没有专业的 AI 从业者，目前已经有 18000 家公司成为其客户。最新的消息是，该公司刚刚完成一笔 7500 万美元的融资，投资方来自高盛、平安环球等，自 2012 年成立至今，这家创业公司已经累计完成 1.46 亿美元的融资。你可以在这里详细了解该公司。

创新奇智，这是创新工场旗下的 AI 公司，面向企业级市场，主要行业包括零售、制造、金融等行业。根据 Bloomberg 此前的报道，李开复透露创新奇智预计会在 2020 年营收突破 1 亿美元，并可能会在 2022 年上市，你可以在这里详细了解该公司。

感谢您的订阅，如有疑问，欢迎写邮件给我：zhaosaipo@gmail.com

取消订阅