语音交互:从麦克风阵列开始

随着智能音箱、智能家居等智能硬件的普及，语音交互的普及程度也在飙升。要了解语音交互，第一步是了解麦克风阵列。本文从概念、分类、功能等方面对麦克风阵列进行描述，与大家分享。

从亚马逊Speaker诞生的那一刻起，语音交互逐渐进入人们的视野，越来越多的人开始接触语音交互设备。从电视里的机器人，到家里的音箱，最后到手里的手机，语音交互变得触手可及。

语音交互的第一步是拿起语音。机器人首先要有耳朵，因为如果听不到声音，就不会有反馈，更不会有交互，麦克风阵列相当于机器人的耳朵。

1.什么是麦克风阵列？

相信大家都见过麦克风，这是我们常见的麦克风。麦克风阵列本质上与麦克风相同，只是有更多的无线电单元。基本上，两个以上的无线电孔可以称为麦克风阵列。简单理解为麦克风就是麦克风，多个麦克风就是麦克风阵列。

麦克风阵列是由一定数量的声学传感器(麦克风)按照一定的规则排列而成的多麦克风系统，对声场的空之间的特性进行采样和滤波。

除了看到的麦克风数量，麦克风阵列还有一系列前端算法，集成系统就是完整的麦克风阵列。麦克风阵列只完成物理世界的音频信号处理。要完成语音识别，仍然需要云中的ASR模型，两个系统协同工作才能获得最佳的识别效果。

语音交互:从麦克风阵列开始(图1)

二、麦克风阵列如何分类？

因为前端算法看不见摸不着，所以麦克风阵列的分类经常参考麦克风的布局和数量。目前常用的分类基本上是通过麦克风布局的形状来区分的。参考我们中学课本上的点、线、面，麦克风阵列可以分为线阵、面阵、立体阵(一个点就是一个麦克风)。

当然也有按形状分类的，比如字，十字，平面，螺旋，球面，WAP随机阵列。这里我们按照点、线、面的方法来介绍。

语音交互:从麦克风阵列开始(图2)

1.直线天线阵

它是由两个麦克风组成的普通线性阵列。目前几乎所有中高端手机和耳机都采用双麦克风降噪技术来提高通话效果，部分智能音箱也采用这种方案。

由两个麦克风组成的线性阵列的最大优点是与多麦克风相比，其成本低且功耗低。缺点比较明显，降噪效果有限，即远程场景交互效果不好。

2.平面阵列

平面阵列的组合更加多样化，有4个小麦阵列，6个小麦阵列，也有升级的4+1小麦阵列，6+1小麦阵列，甚至8+1小麦阵列。平面阵列通常用于智能扬声器和语音交互机器人。

平面阵列的线阵可以实现360度的平面等效听力。话筒越多，空之间的分割精度越高，对远处场景的识别效果越好。缺点是功耗高，ID设计复杂。

3.立体阵列

立体阵列多为球形或圆柱形，可以实现全空之间真正的360度无损拾取，解决平面阵列高俯仰角信号响应差的问题，效果最好，成本最高。但是在生活中很少用到，在专业领域也很常见。

3.麦克风阵列有什么作用？

首先从硬件角度介绍了麦克风阵列的分类，然后结合麦克风阵列的前端算法，麦克风阵列起到什么作用？

1.声源位置

人有两只耳朵，可以通过声音判断声音的方向，机器人也可以。这个功能是声源定位，通过声音感知人的方向，从而跟踪目标声源的方向。这也为后续波束形成铺平了道路。

比如在机器人场景中，我们称之为机器人左侧。当机器人听到声音时，它把头转向左边。当机器人听到声音时，它会转身。这是声源定位最典型的应用。通常在唤醒阶段使用声源定位，可以检测出大致的方向。

常用的技术是TDOA(到达时间差)，简单理解为计算信号到达麦克风的时间差来计算声源的位置坐标，需要毫秒级的响应和计算。

语音交互:从麦克风阵列开始(图3)

2.抑制噪音/增强声音

在语音识别中，语音信息往往夹杂着噪声，存在环境噪声和人声干扰，通常不会掩盖正常的语音，只会影响语音的清晰度。麦克风阵列主要使用波束形成技术来抑制噪声和增强人声。可以理解为只有某个角度的声音才能被识别(一般角度是可以调整的)，其他角度的声音都会被抑制，从而达到抑制噪音的目的。另一方面也可以增强角度内的声音，也就是增强声音。

比如在一个家庭场景中，如果我们打开电视，空正在和音箱说话，音箱会把被唤醒的角度作为拾取区域，抑制来自其他角度的噪声(电视声音和空噪声)。一般我们会根据使用场景来设置拾取角度。使用距离越远，角度越小，通常在60°到120°之间。

噪声抑制可以满足日常家居使用场景的需要，但对于强噪声环境的抑制效果并不理想，典型的是鸡尾酒效应。

语音交互:从麦克风阵列开始(图4)

3.回波消除

如果不做特殊处理，机器人会识别出它发出的声音，很可能会变成没完没了的问与答，或者错误的拾音。回声消除就是为了解决这个问题，消除机器本身发出的声音。

比如一个家庭场景，你的音箱在放音乐周杰伦的新歌，但是你要查天气，你会说“小x小x，今天的天气”。回声消除的目的是去除音乐信息，保持声音。

其实回声消除可能不太好理解，有时也叫“自我识别”，就是对自己声音的自我识别。

4.混响消除

在某些场景中，发音会有回声，人们能听到的是17米左右距离返回的回声。然而，机器的感知比人类敏感得多。如果不处理，就会出现一句话叠加识别的情况。混响往往是指声波在室内传播时，被墙壁、天花板、地板等障碍物反射的现象。，并叠加有直达声。

比如在工作室里，我们能感受到明显的回声，机器也能识别这些回声。混响消除是为了消除回声，只识别第一次的内容。

通过解决这些问题，我们基本上可以在日常环境中进行正常的拾音，从而保证正常的语音识别。

4.麦克风阵列如何选择？

市场上有很多可选的麦克风阵列方案，国内的主要有Esprit、云之声、科大讯飞、智胜科技等。他们还有从单麦克风到麦克风阵列和前端算法的完整解决方案。纵观全球，亚马逊和苹果的麦克风阵列硬件，谷歌和微软的前端算法都是他们的专长。

语音交互:从麦克风阵列开始(图5)

首先从使用场景和ID设计上进行选择。如果是像手机一样的近景交互，产品追求性价比，那么单个麦克风就能满足需求；如果是像音箱一样的家中远程场景交互，建议选择4麦以上的麦克风阵列，常见的有4+1和6+1两种选择；如果是像视频音箱一样站在面前的互动场景，建议选择2-4个麦克风的麦克风阵列。当然，如果条件允许，可以使用6个麦克风甚至8个麦克风的麦克风阵列。另外，产品的ID设计适合什么类型的麦克风阵列，因人而异。

其次，结合产品定位和前端算法，我们选择。如果只需要近场电台，需求仅限于皮卡，建议使用单麦，成本低，ID设计简单；想要达到类似通话降噪的效果，2麦的麦克风阵列就能满足需求，价值再大也不大；如果想去除大部分噪声，建议使用四个以上的麦克风阵列，并考虑前端降噪算法的能力。一般大型工厂的效果比较可靠，麦克风阵列的硬件和前端算法的效果要和ASR识别一起评估。

还有军工、航空空航天等高端产品，可以考虑使用分布式阵列，这是我们无法考虑的。

最后参考成本和研发速度进行选择。看了上面这么多介绍，我们只需要根据我们产品的价格和这方面的预算来做选择。至于R&D的速度，我个人觉得选择一个成熟的解决方案是最快的方法。如果ID设计不兼容，可能还需要根据具体需求定制。

一般来说，当我们把手机拿到嘴边时，单个麦克风就足以进行语音交互，就像有人在你耳边低语，一只耳朵就能听得很清楚一样。但是，面对远距离、嘈杂的语音交互，麦克风阵列比单个麦克风有明显的优势。

动词（verb的缩写）行业麦克风阵列介绍

让我们来看看业界常见产品在麦克风阵列上的使用情况

语音交互:从麦克风阵列开始(图6)

通过搜集资料，发现小米和天猫的音箱产品线涵盖面很广，产品从2到6麦。事实上，大多数扬声器设备仍然采用2麦克风和6麦克风方案。随着前端算法的进步，未来可能需要的麦克风越来越少。

不及物动词麦克风阵列怎么测试？

评价一个麦克风阵列的优劣，除了麦克风阵列的软硬件能力外，还需要和ASR的识别效果一起评价，以最终的识别结果为准。

这部分我们后面讲到ASR识别的时候会讲到。

七.摘要

在语音交互普及的今天，消费麦克风阵列主要解决远程场景交互中的语音识别问题，保证真实场景中的语音识别率。

麦克风阵列主要从两个方面实现物理音频采集，一是硬件上麦克风的数量和布局，二是软前的前端算法。硬件布局越合理，麦克风越多，前端算法处理的信息越多，识别效果越好。如果只有一个麦克风，无论前端算法多么强大，都无法定位声源；如果有两个麦克风阵列，如果前端算法超级强大，可以实现近似声源定位；如果有6+1麦克风阵列，前端算法可以轻松定位声源。

麦克风阵列只是语音识别的一部分，其麦克风布局和数量决定下限，而前端算法决定上限。

本文由设计学习网整理发布，不代表设计学习网立场，转载联系作者并注明出处.