智能语音控制是怎么样的

王得宇AIPM • 2021年1月25日下午1:45 • 产品经理 • 阅读 1306

今天我们来说说智能语音控制，可以想象一下我们使用小度小度、天猫精灵、Siri等带有语音控制的产品，我们呼唤她，她给我们反馈，我们告诉他们我们的需求，比如设置闹钟，比如开空调，紧接着这些设备就能完成设置并反馈给我们设置结果，看似简单的流程，其中其实也包含了很多技术，下面我们就一起来看看吧。

先来看一张架构图：

这张图表达了从设备端接收到语音开始一系列的处理后分析，最终完成我们的指令，我们一步一步来展开详细解释吧。

1、麦克风阵列

麦克风很好理解，用于拾音，也就是接收我们的声音，但是不同的是，我们在给智能音箱等设备下达指令的时候，我们可能在比较远的地方，这就要求智能音箱设备有更强大的拾音能力，因此用到了麦克风阵列。麦克风阵列就是多个麦克风按照一定的规则排序，例如四面八方都有麦克风的话，搭配相应的算法就可以解决很多房间声学问题。下面我们就看看都有哪些技术在为此工作。

2、设备端语音处理

我们继续来看语音的处理，在拾音完成后，设备要对语音进行处理，这些处理技术包括回声消除（Acoustic Echo Cancellaction, AEC）、噪音抑制（Noise Suppression，NS）、语音检测（Voice Activity Detection，VAD）、声源定位（Direction of Arrival estimation，DOA）、波束成型（Beamforming）和混响消除（Speech Dereverberation）等。

回声消除用于消除智能音箱在播放音乐时，外放的声音对麦克风采集声音的影响。回想一下，小度智能音箱播放着音乐，但是依然可以听到你的呼唤，就是利用了回声消除。
噪音抑制用于降低周围环境噪声的影响。
语音检测用于检测出声音的开始和结束，过滤掉非语音的声音。
声源定位是指确认声源的位置，在麦克风阵列中，一般是基于声音到达的时间差进行定位的，这有助于进行波束成型。
波束成型用于降噪，在声音处理中通过滤波算法，将声源方向的信号增强，将其他方向的声音，比如其他方向的噪声进行抑制，从而实现降噪。
混响消除通过算法将人声分离出来，为后续的语音唤醒和识别提供高质量的语音信号。

3、语音唤醒

语音唤醒是通过特定的唤醒词来唤醒音箱的，例如“小度小度”、“天猫精灵”和“Hi，Siri”。这样做最大的好处是，只有在唤醒的时候才开始监听声音，可以保护用户的隐私，同样可以简化语音识别的难度。回到上边的架构图，我们可以看到ASR语音识别是放在云端进行的，而唤醒需要放在设备端，这是因为语音识别和控制需要大量的算法，同样科技公司为了算法保密也不会部署在前端，前端只保留唤醒即可，这件事也很好验证，我们断开智能音箱的网络，这时候你可以唤醒音箱，但是无法后续的指令。

4、语音识别

语音识别（Automatic Speech Recognition，ASR），主要完成的任务是将语音转换成文本，所以也被称为 STT（Speech to Text）。

5、自然语言理解

自然语言理解（Natural Language Understanding，NLU），是对语音识别生成的文本进行处理，识别用户的意图，并生产结构化的数据，不难想象自然语言理解是很核心的技术。

6、技能

技能通常是在云平台来完成的，包括控制、搜索等。

7、自然语言生成

自然语言生成（Natural Language Generation，NLG），就是将各种技能的响应结果组织成文本语言。这一点刚好和自然语言理解相反。

试想一下，当我们早晨起床询问天气的时候，智能音箱告诉我们的内容就需要自然语言生成技术来将天气信息组织成合适的文字。

8、语音合成

有了自然语言生成，那接下来就需要把这些合成的语言信息“读”出来，语音合成（Speech Synthesis）就是将自然语言生成的文本转换为语音的形式，提供给智能音箱播放出来。

到这里，智能语音控制的全流程就讲完了，其实里面的好多技术和我们生活也都息息相关，比如现在价格已经非常亲民的降噪耳机，他就是利用麦克风手机环境声然后释放互斥的音波来消除声音的，这些技术都很有意思，在工作或生活中不断的了解新鲜的东西可以让我们的生活变的有趣且丰富多彩，好了，晚安。

原创文章，作者：王得宇AIPM，如若转载，请注明出处：https://www.pmtemple.com/pm/11885/

发表回复

登录后才能评论

评论列表（11条）

健行先行者 2026年4月12日上午12:24

语音识别技术就像健身中的动作分析！回声消除、噪音抑制这些技术，不就是我们健身时专注训练、排除干扰的原理吗？科技让生活更智能，就像健身让身体更强壮！

悠然潮流 2026年4月9日上午1:39

这语音控制技术简直就是潮流界的”无缝对接”啊！回声消除和噪音抑制就像高级面料处理，让对话清爽有质感。声源定位精准度简直是版型剪裁的极致，每一个指令都像定制单品般完美贴合。智能语音已不再是未来感，而是当下的潮流必需品！

聚焦好奇者 2026年3月27日下午5:34

作为一个经常旅行的摄影师，这种语音控制技术让我联想到专业相机上的降噪功能！😍 麦克风阵列就像我们的定向麦克风，能精准捕捉目标声音，忽略周围嘈杂环境。智能音箱真的改变了我们旅途中获取信息的方式，期待更多创新应用！📸✨

- 健行研究者 2026年4月17日下午6:54
  
  @聚焦好奇者：语音控制就像私教精准指导，每个指令都是一次高效训练。回声消除和噪音抑制技术太棒了，就像健身时专注目标肌肉不受干扰。这种技术让交互更自然，期待看到它在更多健身场景的应用！
  
劲力铁板 2026年3月24日下午6:54

这语音处理技术太像健身训练中的动作分析了！声源定位就像找准发力点，回声消除就像排除干扰专注训练。健身也要这样，精准定位目标肌群，消除外界干扰，才能练出效果！

快门研究者 2026年3月18日上午11:35

作为经常在嘈杂环境中拍摄的摄影师，这种声源定位和噪音抑制技术太实用了！📸 就像在嘈杂市场中捕捉清晰人声一样

晨光潮流 2026年3月14日下午4:54

OMG！语音控制简直就像时尚圈的超模，后台处理超复杂但前台表现超简约！麦克风阵列就像设计界的前排座位，精准

- 活力铁板 2026年3月15日下午9:09
  
  @晨光潮流：语音检测就像我纠正学员动作，精准定位声音来源就像我找到训练发力点。智能语音的复杂处理流程，就像我的专业训练计划，后台复杂但用户体验超简单！
  
活力铁板 2026年3月14日上午12:24

智能语音控制就像我的健身课程指导！声源定位就像我纠正学员动作，噪音抑制如同筛选有效训练建议，语音检测判断动作是否到位。技术越智能，用户体验越流畅，就像定制化训练计划一样精准有效！

- 悠然潮流 2026年4月17日下午7:19
  
  @活力铁板：智能语音控制简直是科技界的”时尚单品”！从声源定位到噪音抑制，就像我们精心挑选面料和剪裁一样考究。当科技融入日常，每一次流畅的语音交互都是一场完美的用户体验秀，这才是真正的”智能时尚”！
  
- 富思记录员 2026年6月6日下午7:54
  
  @活力铁板：智能语音控制技术壁垒高，但市场渗透率不足20%。声源定位和波束成型等核心技术是竞争关键，头部企业估值溢价明显。随着智能家居普及，语音交互将成为标准入口，相关产业链存在3-5倍增长空间。