创始人说

极限元联合创始人马骥:智能语音从技术到产品落地需要跨过几个坑?


极限元联合创始人马骥:智能语音从技术到产品落地需要跨过几个坑?

编者按:本文作者 马骥,极限元智能科技联合创始人,中科院-极限元“智能交互联合实验室”副主任。原题目《智能语音从技术到产品落地的几个关键问题》高度、自然、便利的人机对话模式一直是人们追求的理想人机交互方式。

当前,以语音识别、语义理解、语音生成为主要核心的语音交互技术已经得到广泛的应用,几乎深入到社会的各个行业,大大减少了人力资源的消耗,提高了服务的质量,促进了社会的发展,语音技术已经对生产力的变革产生了巨大影响。但是,现有的语音交互技术离理想中的类似人与人之间的“自然交流”还是有不小距离。

首先,现有的语音识别技术还无法准确的识别自然口语,特别是对于带有口音方言的语音识别和远场条件下的语音识别的低准确率极大降低了用户对问答系统的体验度。

另一方面,现有语音生成技术多局限于中性风格的语音,而人们在相互交流中,用语往往具有个性化、口语化和情感化等鲜明的特点,也大量使用各种副语言表达方式,人们很自然的希望在人机交互过程中,语音的输出也能够具备这些特征。因此,智能语音要想真正落地需要在以下几个方面取得突破:

1、提升语音识别系统对方言、口音的适应能力,拓宽其在垂直领域的应用

极限元联合创始人马骥:智能语音从技术到产品落地需要跨过几个坑?

在方言、口音上,现有的识别系统除了在训练语料上增加相应口音的语音数据和相应方言的文本语料外,还没有一个很好的解决方案。传统的自适应方法能够在一定程度上缓解方言、口音带来的识别性能下降,但与普通话语音识别性能相比还有较大的差距。近年来随着迁移学习的发展,采用迁移学习进行在线快速自适应,为解决方言、口音问题提供了一个可行的解决思路。

当前的人机交互系统,在面对复杂环境时的鲁棒性还难以达到要求;为了实现释放双手的人机之间自由通信,探索远场语音前端处理方法变得至关重要;针对远场语音处理存在的痛点,需要建立一套完整的包括回声消除、抗混响、噪声抑制等关键技术的语音前端处理系统;该系统不仅可以提高复杂环境下目标语音的可懂度,同时通过与后端智能语音算法匹配训练能够提高语音识别和声纹识别模型的鲁棒性,可广泛应用于智能家电、智能机器人、智能车载、会议系统等多个领域。

在垂直领域应用过程中,专有名词、专业领域知识缺乏的情况下,现有的识别系统很难得到较高的识别准确率。领域定制成了语音识别的一个重要应用场景。在医疗、安全、法院等领域,语音识别系统已经发挥了重要作用,极大的降低了人力物力资源。在社会经济发展的各个领域,语音识别作为人机交互的重要接口,将发挥越来越大的作用。

2、提高语音合成的表现力,将应用领域拓宽到多语言、多发音人的语音合成

极限元联合创始人马骥:智能语音从技术到产品落地需要跨过几个坑?

在语音合成的表现力上,面向自然口语的语音合成是提高合成系统表现力的最主要的途径。当前的语音合成系统针对朗读体内容能够合成出高质量的语音,但是针对更具表现力的自然口语,合成效果不尽人意;一方面由于系统对韵律信息的捕获不准确,另一方面由于生成的声学参数存在误差;提高自然口语语音合成的表现力,可以有效的提升语音交互系统的体验感,极大的拓宽语音合成的应用场景。因此,如何充分的挖掘自然口语中的语义信息,如何针对自然口语语料提高韵律模型和声学模型的精度将是语音合成领域急需解决的一个难题。

在语音合成的工程应用上,多说话人、多语言语音合成问题是语音合成应用的一大局限。当前语音合成大多面向单一说话人、特定语言的语音合成,这极大的限制了语音合成技术在工业界的应用;虽然一些自适应方法可以实现生成特定说话人的语音,但是语音音质有所下降,难以达到实用化的要求;同时,现有的多语言语音合成方法大多需要有相应语言的音库作为支撑,语料获取的难度制约了这项技术的推广。如何利用数据驱动方法和自适应技术实现任意说话人、不同风格的高质量语音合成,如何充分挖掘不同语言的发音空间,在语料受限条件下实现多语言语音合成,上述问题的解决将极大拓宽语音合成的应用场景。

伴随人工智能的发展,智能语音交互时代渐渐开启,语音作为一种重要的交互方式不可或缺。智能语音行业具有非常光明的发展前景,尤其是在智能交互不断更迭的物联网时代,智能语音技术来得恰是时机;很多人把它看做是下一波风口。智能语音发展到今天还谈不上真正实用,需要解决从技术到产品落地的关键问题,不断的成长和发展。

关于来源:

本文由中科院-极限元“智能交互联合实验室”的专家整理分享,接下来联合实验室的人工智能专家团队会分多期和大家继续分享关于智能语音技术的研究、应用等一系列优质内容。

作者,马骥:极限元智能科技联合创始人,中科院-极限元“智能交互联合实验室”副主任,曾先后就职于中科院软件研究所、华为技术有限公司,获得多项关于语音及音频领域的专利,资深软件开发工程师和网络安全解决方案专家,擅长从用户角度分析需求,提供有效的技术解决方案,具有丰富的商业交流和项目管理经验。