从搜狗语音的进化,看未来智能语音时代如何开启?

从搜狗语音的进化,看未来智能语音时代如何开启?

又到年末,回顾一年来人工智能的发展,语音识别技术正处于快速发展阶段。正如在之前由国际知名科技期刊《麻省理工科技评论》(MIT Technology Review)评选出的“2016年十大突破技术”,语音接口技术位列其中,该技术可将语音识别和自然语言理解相结合,为全球互联网市场创造切实可用的语音接口。

随着场景声音辨识技术的加速完善,语音识别技术有望迎来真正的拐点,未来发展空间将进一步扩大。而国外的谷歌、苹果,以及国内的科大讯飞、搜狗等公司都是这一领域的大玩家。

从智能语音识别、语义理解到如今最热的实时翻译,搜狗语音并不是一开始就有如此优秀的表现,而是经过了数年的产品演进和技术进化才达到今天这样的水平。而回顾搜狗在智能语音技术方面的进化历史,甚至还能够看到未来的智能语音技术发展的方向和前景。

智能语音的进化史

首先让时间回到移动互联网的爆发初期的2012年,当时由于苹果Siri功能推出,语音助手软件曾经风行一时。不仅包括搜狗、百度等搜索引擎公司基于自身的搜索引擎的基因,纷纷推出了独立的语音助手应用,还有一些创业公司也希望能够从语音搜索入手,期望成为下一代搜索引擎入口。不过,与Siri一样,这些语音助手产品不仅语音识别率低,而且还经常答非所问,且只能提供一些简单的询问天气、介绍餐厅等初级功能,无法进行复杂的多轮交互对话,因此在经过了短暂的市场预热之后迅速进入低潮,而这些语音助手们也纷纷沉寂,甚至停止了更新。

在此之后,包括搜狗在内的这些提供智能语音服务的公司纷纷转入技术积累的低调期,并陆续推出了基于云服务推出语音云开放平台,希望能够开放自己的语音识别、语义理解等语音技术能力,吸引更多的第三方合作伙伴,一起搭建生活服务入口。不过,尽管搜狗在智能语音的技术一直在向前演进,语音识别率越来越高,但是由于更多将服务转向了b端,因此并不被普通用户熟悉。直到罗永浩在对锤子手机功能的演示时提及,才使得人们第一次意识到原来智能语音技术已经演进到了现在这个地步。

实际上,第一次引爆智能语音技术并让其受到追捧的人并不是罗永浩,而是搜狗CEO王小川。就在今年7月,搜狗CEO王小川在参加极客公园“奇点·创新者峰会”上已经完成进化的搜狗语音来了一次”首秀“。利用搜狗公司的语音识别技术,王小川的演讲内容在现场实时生成了滚动字幕显示,目测准确率高达95%以上。同步的字幕引起了现场观众极大的兴趣,纷纷起立拍照。不仅如此,王小川甚至还现场邀请了一位观众上台体验了搜狗输入法的新功能“语音修改”。用户对着手机说出一段文字后,再通过自然语言的方式将语音识别错误的地方进行修正,赢得了现场热烈的掌声。

紧接着,搜狗马不停蹄的在今年8月初发布了语音交互引擎“知音”,继续展示其在智能语音技术方面取得的重大突破,不仅在语音识别率方面达到业界领先的97%,而且还能进行快速纠错,更解决了此前一直困扰业界的复杂多轮交互的问题。简单的说,就是不仅要实现“能听会说”,还要求具有“能理解会思考”的能力,这使得智能语音的应用场景被大大延伸。而搜狗还宣布,已经将智能语音技术应用到了包括搜狗搜索、搜狗输入法、搜狗地图等全线产品当中。至此,搜狗的语音技术完成再次进化,在智能语音方面的能力已经到达了国内领先的水平。

而在11月乌镇举行的第三届世界互联网大会上,王小川在分论坛演讲现场更是发布了搜狗人工智能新产品——机器同传,展示了实时机器翻译技术,将演讲嘉宾的中文讲话实时语音识别并同步翻译为英文上屏显示,引起轰动。这也是全球首次基于神经网络的实时机器翻译技术在大型活动上的展示,效果可靠、准确率已接近人类同传翻译结果。

基于大数据和深度学习,搜狗语音实时翻译涵盖了搜狗自主研发的语音识别、机器翻译两项重要技术,代表着这两大技术在实时性和实用性上迈出了较大的一步,并且高效的结合了起来。

未来,智能语音技术该如何演进?

另一方面,前面提到,目前搜狗在语音识别率方面已经达到97%,并能够进行快速纠错和处理复杂的多轮交互对话,而且已经应用到搜狗的全线产品当中。那么,接下来,智能语音技术还会向那些方面演进呢?我认为主要有以下三个突破点:

首先,需要继续提升智能语音的识别率,突破最后的3%。实际上,目前搜狗使用新开发的语音修改功能,通过自然语言交互的形式修改所输入的文字,比“将弓长张改为立早章”等,已经在一定程度上解决了语音识别准确率最后3%的差距,达到了解放用户双手和提高用户输入效率的目的。而搜狗之所以能够在智能语音技术方面率先取得突破,一方面与其多年来的深耕积累密不可分,另一方面也与其搜索引擎公司基因密不可分。按照王小川的话说,搜狗本身就是一家人工智能公司,作为搜索引擎公司之所以能够向用户提供精准的搜索结果,其技术原理就是不断的进行数据积累和机器学习,从而使得其能够准确理解用户输入文字背后的真实意图,从而给出最为精准的答案,而智能语音的原理与此类似,因此与搜狗输入法一样,搜狗有先天优势能让其在智能语音技术方面能够率先获得突破,达到领先行业的高识别率。

其次,复杂多轮交互能力的提升依然是智能语音技术的突破点。实际上,在众多关于人工智能的科幻电影当中,对于人类与机器的交互描述的最理想状态就是让机器能够理解自然语言,实现完全无障碍的复杂的多轮交互对话,而只有做到这一点才真正能够触发“奇点来临”,人工智能时代才算真正开启。因此,在解决最后的3%的语音识别率的同时,在语义理解方面继续提升机器对人类自然语言的理解能力,以及对于不同语境下的复杂对话的处理能力也非常重要,而这些技术等突破甚至还需要情感识别技术的应用,将是更难的技术突破点。

而在这方面,搜狗依然具有优势,因为像语义理解这样的人工智能技术的提升,同样是一个数据积累和机器学习的过程,而这意味着具有庞大的用户量和数据量能够提供为机器学习更多的机会。首先,与其它没有搜索引擎基因公司相比,搜狗搜索是一家国内排名前三的搜索引擎厂商,拥有足够多的用户和足够大的数据量,这是其拥有让人工智能技术成长的“土壤”,而搜狗搜索语音搜索次数增长超过4倍也恰好印证了这一点;而与其它搜索引擎公司相比,搜狗还有国内用户量最大的搜狗输入法作为搜狗语音的“训练师”,其不仅拥有海量词库,日均语音输入更是超过1.9亿次。因此,这两大优势相加,使得搜狗基本上可以“跑赢”目前市面上所有的智能语音产品。

最后,智能语音的技术必须更加通用化和行业化。也难怪人们此前对于智能语音能够达到97%的识别率的“惊讶”,因为除非是记者、作家等文字工作者有语音转文字这样的需求,大部分人在日常的交流当中,极少情况下会有语音转文字的需求,因此尽管智能语音的技术不断进步,但人们却丝毫没有感觉到。因此,在下一阶段的发展过程中,智能语音技术必须走下“神坛”,不能再是普通人不需要的“黑科技”,而是应该成为企业和个人都能因此受益的通用技术和解决方案。

目前来看,搜狗已经率先展开了对于智能语音技术在行业应用中的探索。就在不久前,魅族召开发布会发布了其首款电视智能盒子–魅族盒子,其中就内置了搜狗智能语音技术,用户通过魅族盒子的智能遥控器,用户只要说出自己想看的内容,视频、歌曲、学习、健身等内容就会一呼即应。与此同时,搜狗智能语音技术

在车载导航的应用方面也有动作,最近国内车载导航的领先企业飞歌推出飞的歌黄金G8Ⅱ智能车机产品,该车机就载了搜狗车载语音解决方案的趣驾行车助手,并将语音与服务进行深度整合,实现了以轻应用的形式将搜狗智能语音技术在飞歌黄金G8Ⅱ上呈现,迈出了向车联网探索的第一步。除此之外,搜狗还正在酝酿与VR、智能电视等第三方在智能语音技术方面展开合作。因此,可以预见的是,智能语音技术在家居、汽车、教育、医疗等领域的应用不断深入,用户将能够在更多的场景下,享受到智能语音技术发展所带来的·优秀体验和服务。

总的来看,智能语音技术不仅仅需要在语音识别准确率、多轮复杂交互能力方面继续提升,还需要真正能够转化成为企业和用户都需要的服务,这样才能够真正体现出价值,也才能够迎来一个真正属于智能语音时代的到来。

原创文章,作者:冰川,如若转载,请注明出处:https://www.zhihuichengshi.cn/xinwenzixun/29628.html