智能语音控制是怎么样的

今天我们来说说智能语音控制,可以想象一下我们使用小度小度、天猫精灵、Siri等带有语音控制的产品,我们呼唤她,她给我们反馈,我们告诉他们我们的需求,比如设置闹钟,比如开空调,紧接着这些设备就能完成设置并反馈给我们设置结果,看似简单的流程,其中其实也包含了很多技术,下面我们就一起来看看吧。

先来看一张架构图:

智能语音控制是怎么样的

这张图表达了从设备端接收到语音开始一系列的处理后分析,最终完成我们的指令,我们一步一步来展开详细解释吧。

1、麦克风阵列

麦克风很好理解,用于拾音,也就是接收我们的声音,但是不同的是,我们在给智能音箱等设备下达指令的时候,我们可能在比较远的地方,这就要求智能音箱设备有更强大的拾音能力,因此用到了麦克风阵列。麦克风阵列就是多个麦克风按照一定的规则排序,例如四面八方都有麦克风的话,搭配相应的算法就可以解决很多房间声学问题。下面我们就看看都有哪些技术在为此工作。

2、设备端语音处理

我们继续来看语音的处理,在拾音完成后,设备要对语音进行处理,这些处理技术包括回声消除(Acoustic Echo Cancellaction, AEC)、噪音抑制(Noise Suppression,NS)、语音检测(Voice Activity Detection,VAD)、声源定位(Direction of Arrival estimation,DOA)、波束成型(Beamforming)和混响消除(Speech Dereverberation)等。

  • 回声消除用于消除智能音箱在播放音乐时,外放的声音对麦克风采集声音的影响。回想一下,小度智能音箱播放着音乐,但是依然可以听到你的呼唤,就是利用了回声消除。
  • 噪音抑制用于降低周围环境噪声的影响。
  • 语音检测用于检测出声音的开始和结束,过滤掉非语音的声音。
  • 声源定位是指确认声源的位置,在麦克风阵列中,一般是基于声音到达的时间差进行定位的,这有助于进行波束成型。
  • 波束成型用于降噪,在声音处理中通过滤波算法,将声源方向的信号增强,将其他方向的声音,比如其他方向的噪声进行抑制,从而实现降噪。
  • 混响消除通过算法将人声分离出来,为后续的语音唤醒和识别提供高质量的语音信号。

3、语音唤醒

语音唤醒是通过特定的唤醒词来唤醒音箱的,例如“小度小度”、“天猫精灵”和“Hi,Siri”。这样做最大的好处是,只有在唤醒的时候才开始监听声音,可以保护用户的隐私,同样可以简化语音识别的难度。回到上边的架构图,我们可以看到ASR语音识别是放在云端进行的,而唤醒需要放在设备端,这是因为语音识别和控制需要大量的算法,同样科技公司为了算法保密也不会部署在前端,前端只保留唤醒即可,这件事也很好验证,我们断开智能音箱的网络,这时候你可以唤醒音箱,但是无法后续的指令。

4、语音识别

语音识别(Automatic Speech Recognition,ASR),主要完成的任务是将语音转换成文本,所以也被称为 STT(Speech to Text)。

5、自然语言理解

自然语言理解(Natural Language Understanding,NLU),是对语音识别生成的文本进行处理,识别用户的意图,并生产结构化的数据,不难想象自然语言理解是很核心的技术。

6、技能

技能通常是在云平台来完成的,包括控制、搜索等。

7、自然语言生成

自然语言生成(Natural Language Generation,NLG),就是将各种技能的响应结果组织成文本语言。这一点刚好和自然语言理解相反。

试想一下,当我们早晨起床询问天气的时候,智能音箱告诉我们的内容就需要自然语言生成技术来将天气信息组织成合适的文字。

8、语音合成

有了自然语言生成,那接下来就需要把这些合成的语言信息“读”出来,语音合成(Speech Synthesis)就是将自然语言生成的文本转换为语音的形式,提供给智能音箱播放出来。

到这里,智能语音控制的全流程就讲完了,其实里面的好多技术和我们生活也都息息相关,比如现在价格已经非常亲民的降噪耳机,他就是利用麦克风手机环境声然后释放互斥的音波来消除声音的,这些技术都很有意思,在工作或生活中不断的了解新鲜的东西可以让我们的生活变的有趣且丰富多彩,好了,晚安。

原创文章,作者:王得宇AIPM,如若转载,请注明出处:https://www.pmtemple.com/silence/11885/

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

分享本页
返回顶部