为什么语音的方向是在企业市场
从 2016 年到 2018 年,我会在不同的场景下看到下图或类似下图的变形:
这是有着「互联网女皇」之称的 Marry Meeker 在其互联网报告里一张图,就像这幅图的标题所言,在人类人机交互的时间线上,基于语音的交互正在成为未来。
2016 年开始,中国智能音箱市场正式开启,无论是先入场的阿里、百度还是后续的小米、华为,上面这幅图所阐释的理论、类亚马逊 Echo 的产品设计、低廉的价格以及对万物互联的各种承诺,都让语音与智能音箱牢牢绑定在一起,迅速成长为一个颇为热闹的市场。
但热闹的市场背后,消费者与厂商们并没有获得「应有的价值」,一方面,智能音箱天然是一种固定设备,这极大限制了其应用场景;另一方面,语音技术依然很傻,用户对智能音箱的期待与技术不合格之间的差距,使得用户很难建立起使用语音交互的习惯。
而对于厂商来说,赔钱赚吆喝的行业规则根本无法持续。
Meeker 指出了技术发展的未来趋势,但现状是,从苹果、亚马逊到阿里巴巴,这些当下中美最强大的技术公司,即便可以做出一台台所谓的智能音箱,但它们更像是语音数据收集工具,还需要更强大的机器或者廉价的人类劳动力,去解决「听见」、「听懂」的问题。
语音技术本质上不仅是要解决机器获取人声,更是要「识别」与「理解」,就目前来看,机器的语音识别准确率已经超过了人类,这既是智能音箱厂商前几年反复强调的技术突破,也为接下来语音在其他场景的应用提供了基础。
从宏观层面上分类,语音技术在消费市场和企业市场的应用场景与需求截然不同。
首先,在消费市场,从智能音箱到手机语音助手,这些语音交互场景都是开放式的,换句话说,机器所需要处理的是一个完全没有规则的交互逻辑,由此也给语音语义理解带来巨大困难。
比如第一代 Siri 出现的时候,人们迫不及待地想知道这个被乔布斯「钦定」的应用到底有多大威力,「调戏 Siri」一度成为全球性的话题,但很快,Siri 就被「玩坏」了,越来越多的用户发现,Siri 实在是太「傻」了,不仅功能单一,而且还无法真正理解人类复杂的语言体系。
其次,企业市场的语音应用场景更垂直化,以在线教育为例,利用语音合成和 VR 技术,可以构建起虚拟名师的形象,这个过程里的语音技术,其处理的需求都是集中在在线授课场景中,相对简单。
另一个值得关注的场景是医疗领域的语音电子病历,这里涉及到语音输入、识别等过程,最终形成结构化的病例数据,电子病历之外,包括导诊机器人在内的众多医院设施都具有语音交互的潜力。
这个市场有多大呢?下面是两张对比图,今年被微软 197 亿美元收购的语音技术公司 Nuance,其 2018 年医疗业务营收达到 9.9 亿美元,而 2019 年中国语音市场中的医疗健康细分领域规模只有 4 亿元人民币,预计 2022 年才能达到 10 亿元。
呼叫中心与客服也是一个典型场景,我曾在微软收购 Nuance 之后推断微软会将呼叫中心作为语音技术的发力点;在中国,大量的语音客服出现在电商、电信的业务推广甚至售后服务之中。
与其他企业市场类似,企业市场的语音玩家们也高度集中,上周,IDC 的一份报告也透露,2020 年疫情冲击下,语音语义软件的需求进一步向头部公司集中,其中阿里在该领域增长态势最为迅猛,年增速高达 96.6%,超过百度 59.8% 和科大讯飞 24.3% 的增幅。
综上来看,语音技术还在不断发展之中,并且更多的应用创新出现在企业市场,通过「语音+行业知识」的结合,在降低成本的同时,提升客户体验,才是一项 AI 技术落地的关键,至于智能音箱或语音助手,距离成为你我心目中的萨曼莎(电影《Her》里的语音机器人)还有很长一段路。
|