麦克风阵列的方法在近年来被逐渐应用在电子耳蜗前端语音增强和提高言语识别率的研究里。该方法通过在空间不同的位置上放置若干麦克风,可以采集包含大量空间位置和方位信息的多通道信号,并形成增强目标信号和抑制干扰信号的特定波束指向模式。该方法更加适合用于电子耳蜗增强面对面交流的应用场景,其应用价值受到越来越多研究人员的关注。本文对麦克风阵列波束形成的原理进行阐述,并对目前文献中基于麦克风阵列的语音增强技术进行分析,归纳和总结了其中的技术难点和发展趋势。
引用本文: 陈又圣, 陈伟芳, 张璞, 陈培培. 电子耳蜗前端麦克风阵列语音增强技术的研究与进展. 生物医学工程学杂志, 2019, 36(4): 696-704. doi: 10.7507/1001-5515.201805050 复制
引言
世界卫生组织(World Health Organization,WHO)官网 2018 年 3 月 15 日的统计数据表明:全球已有 4.66 亿人患有听力损失,其中成年人有 4.32 亿,儿童有 3 400 万[1]。遗传性的疾病、传染病、分娩综合征、慢性耳部感染、药物服用不当、过量噪音以及衰老等因素均能导致听力损失,其中,12~35 岁年轻人群的听力损失的重要致病原因是经常处于娱乐环境中的过量噪音之中,而 65 岁以上老年人中有三分之一患有残疾性听力损失。听力损失引起患者不同程度的耳聋,如轻度耳聋、中度耳聋、重度耳聋和极重度耳聋等。第二次全国残疾人抽样调查的数据显示,我国听力残疾人数有 2 780 万人,其中重度和极重度耳聋患者高达 739 万人[2]。
不同的听力损失可依据病因及程度来选取相应的治疗模式,常见的方法包括药物治疗、手术治疗、佩戴助听设备和植入电刺激设备[3]。其中,植入电子耳蜗是极重度耳聋以及全聋患者恢复听力感知能力的有效方式。对于正常人来说,外耳和中耳是外界声音信号的机械传导装置,其中,外耳用来收集声音,中耳的听小骨链用来放大机械振动。由中耳放大后的信号传送到内耳,通过毛细胞把声信号转成生物电信号,再由生物电信号刺激听觉神经来产生听觉感知。耳聋患者的耳蜗内残留的听神经可以通过电刺激的模式使其兴奋,该兴奋沿听觉通路传递至大脑从而产生类似正常人的听觉感知能力。因此,电子耳蜗作为一种替代装置,直接将语音信号转换为电脉冲信号,刺激听神经来产生相似的神经发放模式和听觉感知。美国国立耳聋与其他交流障碍性疾病研究所(National Institute on Deafness and Other Communication Disorders,NIDCD)于 2017 年 3 月 6 日公布的数据表明:目前全球电子耳蜗植入数已达 324 200 个[4]。
为了提高电子耳蜗的言语识别率,目前的热点研究方法包括精细结构编码[5]、电流导引[6]、电场聚焦[7]、光学耳蜗[8-10]、虚拟电极[11-13]、麦克风阵列[14-17]等。其中,麦克风阵列的方法通过多个信号采集点获取空间信息,适合应用于电子耳蜗使用场景中目标信号和干扰信号方位不同的情形。通过提高前端信号采集的信噪比或者结合语音增强的算法来提升电子耳蜗言语识别率,是近年来受到较多关注的重要研究方法。
本文详细介绍了近年来利用麦克风阵列进行电子耳蜗前端语音增强的主要方法和研究进展,并针对麦克风阵列存在的问题进行分析和探讨,归纳和总结了目前存在的研究难点,最后指出了未来的发展方向。
1 麦克风阵列信号采集和波束形成原理
在空间不同位置以特定排列的方式来放置麦克风,形成麦克风阵列的信号采集模式,其原理如图 1 所示。
图 1 中,在空间里以线性或者特定结构排列 n 个麦克风用于采集声音信号。由于空间位置的差异,所采集到的 n 个通道的信号是不同的。麦克风阵列的方法对每个通道的信号分别给予延迟系数和加权系数,然后将所有信号叠加来形成总的输出信号。对于整个麦克风阵列系统来说,延迟系数和加权系数决定着极性图。该方法可以通过系数调整来设计满足电子耳蜗特定应用场景的极性图,以实现目标信号的增强和干扰信号的抑制。对于 n 个麦克风来说,麦克风阵列系统的总输出 y(t) 的表达式如式 (1) 所示:
式中 βi 和 τi 分别是第 i 个麦克风的加权系数和延迟系数。
对于不同的加权系数和延迟系数,可以形成不同的波束指向。在电子耳蜗应用中,由于尺寸的限制,双麦克风信号采集是常见的模式,在该模式下可产生全向型、双极型、超心型和心型等常规波束。
2 电子耳蜗麦克风阵列语音增强的方法
2.1 固定波束形成方法
固定波束形成方法适合应用在固定方位的目标声源的情形,所设计波束的极性图固定。在电子耳蜗实际使用的场景中,面对面交谈时的正向方位是目标信号的方位,而干扰噪声则来源于其他方位。在此场景中,所设计的波束需要对正向方位的信号有最大的系统响应,其他方位的系统响应则应该较小。由于电子耳蜗尺寸的限制,目前文献中电子耳蜗信号采集一般采用双麦克风模式,可形成双极型、超心型和心型等常见的波束,这三类波束最大的系统响应方位均在正向。如果对其中一个麦克风增加一个增益参数,则可形成更加多样的极性图,例如,可形成从正向到后向单调平滑过渡的极性图[18]。该极性图所对应的不同方位的系统幅频响应如图 2 所示。
双极型、超心型和心型是常见的极性图,共同特点是正向方位的系统响应最大,区别在于系统零点的位置。双极型极性图的系统零点在 90° 和 270° 方位,可用于去除两侧的干扰信号;心型极性图的系统零点在 180° 方位,可用于去除后向的干扰信号;超心型的系统零点在侧向和后向之间,可用于去除侧后向的干扰信号。图 2 是针对特定场景设计极性图所对应的系统幅频响应曲线,可以看到,正向方位的系统响应最大,侧向和后向的系统响应单调平缓降低。该极性图可用于增强方位为正向的目标信号,同时可以减少其他方位信号的突然变化,有助于提高电子耳蜗的舒适度。从上面的分析可以看到,各类固定波束形成方法的参数固定,极性图固定,主要针对特定的应用场景。
2.2 自适应波束形成方法
对于单一噪声源和噪声源方位时变的情形来说,可采用自适应波束形成的方法。双麦克风系统可通过延迟参数的设置,形成特定波束指向的极性图。在该极性图中,存在一个系统幅频响应为零的点,不同的延迟参数对应的零点方位不同。自适应波束形成方法是通过对噪声特征和方位进行参数提取,自适应地调整延迟参数,让零点的方位一直跟随着干扰噪声的方位,从而抑制干扰噪声和增强目标信号[19-21]。以双麦克风系统为例,不同的延迟参数所对应的极性图和系统零点如图 3 所示。
图 3 中的 d 为双麦克风的间距,c 为声音在空气中的传播速度,本文取 340 m/s。从图 3 可以看到,当改变延迟值时,系统幅频响应最小值(即系统零点)的方位会发生变化。例如,延迟 0 时,系统零点在 90° 和 270° 方位;延迟 d/c 时,系统零点在 180° 方位;而当延迟在 0 和 d/c 之间时,系统零点分别在 90~180° 和 180~270° 区间内有两个对称的系统零点。自适应波束形成方法是通过对干扰信号的估计和方位的判断,自适应地实时调整参数,让系统零点始终跟随着干扰噪声方位,从而实现噪声去除。
2.3 双耳电子耳蜗的方法
Zeng[22]在报道中指出,在目前的方向性麦克风或者噪声去除技术用于前端声音处理的方法上,最为成功的是两个方面:一是双边或者双耳电子耳蜗的应用;二是结合助听器和电子耳蜗的使用,尤其是对于残存少量低频声音听力的情形。双耳佩戴助听器和电子耳蜗的示意图如图 4 所示。
Lockwood 等[23]采用了非因果最优滤波器方法设计频域波束形成器,把两个麦克风放在两侧双耳位置(相隔约 15 cm)。该算法可以较低失真地提取目标信号,并具有计算量较小的优点。对于电子耳蜗使用者来说,植入电子耳蜗往往是因为该侧耳存在重度聋或者极重度聋的情况。如果对侧耳还存有部分残余的毛细胞,则可在该对侧耳佩戴助听器,形成双耳的模式[24-25]。研究表明,双耳模式的电子耳蜗有助于提高使用者的言语识别能力和声源定位能力;另一方面,当对侧耳朵中存有残留的声音感知能力,则双侧耳朵同时佩戴助听器和植入电子耳蜗有助于改善噪声环境中的言语识别[26-27]。中国科学技术大学等机构的研究表明:具有正常听力的被试者收听电子耳蜗声学模拟语音时,如果在他们的另一侧耳朵中加入低频语音信息,则能够显著提升语音成形噪声中的中文语音识别[28]。
2.4 单通道语音增强技术和麦克风阵列结合方法
单通道的语音增强技术对平稳噪声有较好的去除效果,而麦克风阵列的方法则适合应用在目标信号和干扰噪声在空间方位上分离的情形,两者的结合是近年来电子耳蜗前端语音增强技术的热点方法之一。单通道语音增强技术和双麦克风阵列相结合的方法可增加方位信息,有助于更大幅度地提高信噪比。传统的方法是用线性约束最小方差来改进维纳滤波器,而双耳频域最小方差算法则把失真最小化从时域应用到了频域[23]。Kates 等[29]则设计了一个 5 麦克风的阵列,并结合了最小方差无畸变响应的自适应波束形成技术,最大限度地抑制噪声并实现了自适应的噪声控制。针对小间距的电子耳蜗实际应用场景,清华大学声学与认知工程实验室的宫琴团队[30]提出了基于谱参数分析和估计的双通道语音增强算法。该算法适合用于去除单一噪声源的音乐噪声和语音噪声,如图 5 所示。
图 5 描述的是一种典型的单通道语音增强技术和麦克风阵列结合方法。该方法通过前端的两个麦克风来采集目标信号,对其中一个麦克风给予延迟,然后组合形成两路输出。两路信号由于包含了空间方位信息,它们的目标信号和干扰噪声信号的成分不同,再结合单通道语音增强技术则可以实现不同方位干扰信号的消除。
2.5 麦克风阵列语音增强方法的总结和言语识别率的关联分析
前面阐述了目前在电子耳蜗应用里最为常用的语音增强算法,其共同特征是通过空间中放置若干个声音传感器来增加空间方位信息,主要区别是所结合的语音增强技术和具体的应用场景。在日常使用场景中,电子耳蜗使用者最迫切的应用需求是提高面对面交谈时的言语识别率,源于正向的信号被认为是目标信号,而干扰噪声则源于其他方位。因此,麦克风阵列的方法通过空间不同位置的信号采集来获取方位信息,再结合特定的语音处理技术分离出目标信号。在上述的四大类语音增强技术中,固定波束形成方法的参数固定,因此波束指向也固定,主要应用在噪声方位固定的场合,计算量低。自适应波束形成方法的参数不固定,参数需要依据噪声方位的变化而实时更新,计算量大,适合应用在移动噪声源和非确定噪声源的场合。双耳电子耳蜗的方法则主要是用于患者存有部分残余毛细胞的情形,该方法通过两耳同时佩戴助听器和植入电子耳蜗来增加一个声音信号的获取渠道,充分利用了患者残存的少量低频声音听力感知能力,有助于提升使用者的声音定位能力。单通道语音增强技术和麦克风阵列结合方法则非常多样,主要目标是提高信噪比和去除干扰噪声。由于单通道语音增强技术已经比较成熟,将该技术与麦克风阵列所提供的空间方位信息相结合,有助于提高去噪的性能,缺点是计算量较大。
言语识别率是电子耳蜗语音增强技术评价的重要指标,在具体实验研究中,字出错率、词出错率和句子出错率等都是测试指标。目前的麦克风阵列语音增强技术是通过设计特定的极性图和提高信噪比来实现的,其实验基础是前期学者对电子耳蜗使用者的言语识别率和信噪比的关联性研究。例如,曾凡钢的研究表明,植入电子耳蜗的耳聋患者在安静环境下的言语识别率较高,在噪声环境下的言语识别率大幅度降低。Nelson 的实验研究表明,要达到 50% 的句子识别率,正常人所需要的信噪比约 − 10 dB,而植入电子耳蜗的耳聋患者需要的信噪比则是 5~15 dB。因此,通过设计指向目标信号的极性图或者通过语音增强算法来提高信噪比,都可以让电子耳蜗使用者恢复在类似“安静”环境的使用场景,有助于提高言语识别率。
3 麦克风阵列语音增强技术在电子耳蜗应用中存在的问题
3.1 低频滚降失真
麦克风阵列的系统响应表达式是一个多参数的函数,其中频率是影响系统响应的主要参数之一。以双麦克风在间距为 1 cm 为例,选取 1 000~ 8 000 Hz(间隔 1 000 Hz)的 8 个频率来描述其波束特征,如图 6 所示。
从图 6 可以看到,不同频率条件下的系统极性图是不同的。在电子耳蜗应用场景条件下(间距 1 cm)可以看到:频率越大则系统响应越大,频率越小则系统响应越小。对输入为低频信号来说,经过麦克风系统后的不同方位的增益系数均比高频信号小,由此产生了麦克风阵列中的低频滚降现象[31-33]。低频滚降是麦克风阵列波束形成里的特有现象,其结果是导致信号在不同频段的能量重新分布,并且主要是衰减了低频信号的能量从而产生了信号失真,为此,需要对低频信号给予额外的增益来调整和均衡不同频段的信号输出。从理论上说,一阶差分麦克风的低频滚降是 6 dB/倍频程,而二阶差分麦克风的低频滚降是 12 dB/倍频程。从图 6 可以看到,虽然不同频率条件下的波束大小不同,但波束之间存在较大的相似性,通过适当的信号补偿方法可以实现不同频率条件下的各个波束重新匹配。基于电子耳蜗实际的参数特征,清华大学等研究机构提出了基于双麦克风的归一化波束形成方法和多参数条件下的低频滚降补偿算法,这些算法采用线性化的方式进行低频滚降补偿,具有计算复杂度低的特点[34]。
3.2 信号补偿中的噪声过度放大
对于麦克风阵列所存在的低频滚降问题,目前的方法是调整不同频段的增益。由于低频信号的系统响应小,因而给予低频信号的增益会更大。但是,电子耳蜗所采集的信号既包含目标语音信号,也包含环境噪声信号,而日常应用场景中的环境噪声信号则主要以低频信号为主。以实际采集的语音信号和在餐厅场景下的噪声信号为例来进行说明,其频谱对比如图 7 所示。
从实测的常见环境噪声(餐厅中嘈杂的场景)的频谱图中可以看到,常见环境噪声的主要能量集中在低频的频段位置上。麦克风阵列会导致低频滚降的产生,对于语音信号来说,其频谱能量也是集中在低频的位置。但是,低频滚降后的信号其低频能量会受到更大的削减,因此,需要对语音信号进行能量补偿。由于环境噪声来源多样并且含有随机噪声,阵列中的各个麦克风采集到的噪声信号具有较大的非相关性,因而噪声的低频滚降没有语音信号明显。电子耳蜗前端的麦克风采集的信号包含了目标语音信号,也包含应用场景中的环境噪声信号。当麦克风阵列系统中发生低频滚降失真后,对信号的调整主要是增大低频信号的增益。此时由于环境噪声主要集中在低频段,其结果是环境噪声会被过度地放大,导致信号补偿后的信噪比并没有相应地提高,因此影响了电子耳蜗的言语识别率[34]。对环境噪声过度放大的抑制是麦克风阵列低频滚降补偿中的关键难点之一。由于信号过程中语音和噪声同时被采集,频谱间相互重叠,而且环境噪声本身也具有多样性,因而环境噪声的抑制在技术上具有复杂性。
3.3 电极数量限制及信号分辨率问题
麦克风阵列应用在电子耳蜗前端信号采集中可以增加空间方位信息,但是滤波器组本身有限的频带限制了信号提取的质量,并导致目标信号的信息丢失。电子耳蜗滤波器组的频带数量是由电极阵列的数量决定的,滤波器组的每个频带与电子耳蜗的一个电极对应。电子耳蜗言语识别率难以提高的根源是电极设计方面在近年来几乎没有进展。近几十年来,电子耳蜗中所使用的电极的变化主要是形状从球形和环形到盘形(平面型)的变化和电极阵列长度和厚度的变化,但电极的尺寸和电极与神经元之间的数量失配却没有改变。有学者研究指出:从 1980 年到 1995 年这 15 年间,电子耳蜗相关文献的发表速度很快,呈现指数增长的速度,相应地,电子耳蜗的句子识别率也提高很快,从 0% 到接近 80%;而在随后的 20 年里(1995 年—2015 年),文献发表速度仍很快,但句子识别率却没什么提高,其原因是缺乏耳蜗电极与耳蜗神经之间接口这方面的技术改进[22]。电极的尺寸是神经元尺寸的 1 000 倍以上,也就是说电极数量不到神经元数量的千分之一。目前电子耳蜗电极的特点是尺寸大和数量少,其结果是电极的刺激位置太宽和频率分辨率太低,电子耳蜗电极与耳蜗神经的数量失配限制了电子耳蜗性能的提升。
3.4 麦克风间的增益失配和运动偏移失配问题
在多麦克风应用中,麦克风采集的信号存在传输衰减,并引起了不同麦克风间的增益失配问题。仿真实验表明,当双麦克风发生增益失配时,不同频率的波束形状的相似性变差,其中,低频信号的波束逐渐趋向于具有全向性特征的圆形波束,而高频信号的波束则影响相对较小。当增益匹配时,通过低频滚降的补偿可以得到一致的归一化波束,而增益失配时,归一化波束之间变得不一致,因此,增益失配会降低低频滚降补偿的效果。
对于电子耳蜗来说,实际使用场景会存在使用者佩戴电子耳蜗时发生偏移以及在走动过程中麦克风产生震动等情形。运动偏移失配对单个全向性麦克风的影响很小,但对方向性麦克风的影响较大。以楼氏电子的超薄单指向/全向组合型麦克风(thin uni-directional/omni-directional microphone pair,TP)为例,每个 TP 型方向性麦克风包含两个声管用于信号采集,两个声管既可以垂直放置(型号为 TP-24612-000),也可以对称放置(型号为 TP-24620-000)。声管垂直放置和对称放置的这两类麦克风均可输出具有心型波束特征的信号,该输出信号的强弱与声源方位有关。心型波束有一个方位的系统幅频响应最大,该方位位于 TP 型麦克风两个声管中心点所连接成的几何线段的一侧(另一侧是系统幅频响应最小处)。当发生震动时,单个方向性麦克风的波束形状本身没有发生变化,只是束中最大幅频响应的方位发生了偏移。对于两个及以上的方向性麦克风组成的系统来说,其震动偏移情况更为复杂,系统的波束形状本身也发生了变化。以声管两端对称的两个方向性麦克风为例,当发生震动偏移时(方位角度变化 1~8°),双指向性麦克风系统的波束变化情况如图 8 所示。
从图 8 中的角度偏移 1~8° 的双指向性麦克风极性图对比来看,正向范围(方位 0~60° 和 300~360° 范围内)的各个波束互相重叠。该结果表明角度发生偏移后对正向及正向附近方位的系统幅频响应影响不大,波束之间互相匹配。而侧向和后向方位则不同,不同角度偏移所对应的波束差异较大,波束之间互相不一致。由于电子耳蜗使用者在行走或者移动状态下麦克风会发生一定程度的偏移,从前面的分析可以看到,震动偏移对正向、侧向和后向的信号影响不同。而对于电子耳蜗的具体应用场景来说,目标语音信号主要源于正向,也有部分信号源来自侧向和后向,因此震动偏移对目标信号的影响及信号补偿方式也是难点之一。
3.5 双耳信号采集及波束变化问题
近年来,电子耳蜗双耳信号采集受到研究者更多的关注。将两个麦克风放置在双耳位置进行信号采集,可以增大麦克风间距。如果双麦克风佩戴在同一侧耳朵,由于尺寸限制,麦克风间距一般设置为 1 cm;而如果放置于耳朵两侧,则麦克风间距可增大到 18 cm。但是,间距的增大会直接改变小间距条件下波束设计的模式,波束形状会发生明显变化。以图 6 中的双极型、超心型和心型三类波束为例,选取 1 000~8 000 Hz(间隔 1 000 Hz)的 8 个频率来描述双耳信号采集的波束特征,如图 9 所示。
对比图 6 和图 9 可以看到,当双麦克风的距离从小间距的 1 cm 扩展为双耳间距 18 cm 时,系统所形成的极性图的特征发生了巨大的变化。第一,小间距条件下的双极型、超心型和心型波束特征已经不存在,双耳间距条件下的波束出现了多个指向性的波束旁瓣与波束零点。第二,小间距条件下的双极型、超心型和心型波束的最大系统幅频响应的方位都是 0° 的方位,而双耳间距条件下的波束最大系统幅频响应的方位则并不一定在 0° 的方位,而且常常同时出现多个最大指向的位置。第三,小间距条件下波束存在低频滚降特征以及不同频率的波束之间存在相似性的特征,而在双耳间距条件下,波束之间的相似性已经消失,而且低频信号的幅频响应并没有比高频信号的幅频响应小,低频滚降的特征也不存在。目前应用在电子耳蜗语音增强的算法往往是基于小间距条件下进行波束设计和噪声抑制的研究,双耳信号采集及波束变化问题限制了算法的有效性,因此双耳间距条件下的算法需要重新进行修正和研究。
4 总结与展望
电子耳蜗在噪声环境下的言语识别率仍然较低,提升言语识别率需要在电极工艺、言语处理策略和前端信号增强等方面有进一步的研究和技术突破。麦克风阵列波束形成技术和语音增强技术适合用于前端信号采集,并切合电子耳蜗使用者所面对的目标语音和干扰噪声在空间方位上分离的应用场景。由于尺寸的限制,电子耳蜗实际上更多地采用双麦克风信号采集的模式。然而,双麦克风模式不利于获取丰富的空间方位信息,不利于多噪声源条件下的语音增强,这方面有待进一步的研究和算法上的突破。本文阐述了麦克风阵列信号采集的方法和波束设计的原理,归纳了目前国内外相关的应用于电子耳蜗的麦克风阵列语音增强方法,并进一步分析了目前存在的关键技术难点。本文重点阐述了低频滚降失真、信号补偿中的噪声去除、电极数量和分辨率的工艺限制、麦克风失配、双耳信号采集所产生的波束畸变等核心问题。结合近年来的文献情况,目前有关的研究热点和趋势包括双耳模式信号采集、麦克风失配及补偿、虚拟电极阵列、高分辨率策略、去噪技术融合、算法实时性等方面的研究。就近年来的研究热点和技术进展来看,可以预见,随着新算法的提出以及关键技术难点的突破,麦克风阵列语音增强技术有望进一步提升电子耳蜗在噪声环境下的言语识别率,从而拓展电子耳蜗在复杂环境下的使用性能,并推动电子耳蜗的广泛应用和电子耳蜗产业的发展。
利益冲突声明:本文全体作者均声明不存在利益冲突。
引言
世界卫生组织(World Health Organization,WHO)官网 2018 年 3 月 15 日的统计数据表明:全球已有 4.66 亿人患有听力损失,其中成年人有 4.32 亿,儿童有 3 400 万[1]。遗传性的疾病、传染病、分娩综合征、慢性耳部感染、药物服用不当、过量噪音以及衰老等因素均能导致听力损失,其中,12~35 岁年轻人群的听力损失的重要致病原因是经常处于娱乐环境中的过量噪音之中,而 65 岁以上老年人中有三分之一患有残疾性听力损失。听力损失引起患者不同程度的耳聋,如轻度耳聋、中度耳聋、重度耳聋和极重度耳聋等。第二次全国残疾人抽样调查的数据显示,我国听力残疾人数有 2 780 万人,其中重度和极重度耳聋患者高达 739 万人[2]。
不同的听力损失可依据病因及程度来选取相应的治疗模式,常见的方法包括药物治疗、手术治疗、佩戴助听设备和植入电刺激设备[3]。其中,植入电子耳蜗是极重度耳聋以及全聋患者恢复听力感知能力的有效方式。对于正常人来说,外耳和中耳是外界声音信号的机械传导装置,其中,外耳用来收集声音,中耳的听小骨链用来放大机械振动。由中耳放大后的信号传送到内耳,通过毛细胞把声信号转成生物电信号,再由生物电信号刺激听觉神经来产生听觉感知。耳聋患者的耳蜗内残留的听神经可以通过电刺激的模式使其兴奋,该兴奋沿听觉通路传递至大脑从而产生类似正常人的听觉感知能力。因此,电子耳蜗作为一种替代装置,直接将语音信号转换为电脉冲信号,刺激听神经来产生相似的神经发放模式和听觉感知。美国国立耳聋与其他交流障碍性疾病研究所(National Institute on Deafness and Other Communication Disorders,NIDCD)于 2017 年 3 月 6 日公布的数据表明:目前全球电子耳蜗植入数已达 324 200 个[4]。
为了提高电子耳蜗的言语识别率,目前的热点研究方法包括精细结构编码[5]、电流导引[6]、电场聚焦[7]、光学耳蜗[8-10]、虚拟电极[11-13]、麦克风阵列[14-17]等。其中,麦克风阵列的方法通过多个信号采集点获取空间信息,适合应用于电子耳蜗使用场景中目标信号和干扰信号方位不同的情形。通过提高前端信号采集的信噪比或者结合语音增强的算法来提升电子耳蜗言语识别率,是近年来受到较多关注的重要研究方法。
本文详细介绍了近年来利用麦克风阵列进行电子耳蜗前端语音增强的主要方法和研究进展,并针对麦克风阵列存在的问题进行分析和探讨,归纳和总结了目前存在的研究难点,最后指出了未来的发展方向。
1 麦克风阵列信号采集和波束形成原理
在空间不同位置以特定排列的方式来放置麦克风,形成麦克风阵列的信号采集模式,其原理如图 1 所示。
图 1 中,在空间里以线性或者特定结构排列 n 个麦克风用于采集声音信号。由于空间位置的差异,所采集到的 n 个通道的信号是不同的。麦克风阵列的方法对每个通道的信号分别给予延迟系数和加权系数,然后将所有信号叠加来形成总的输出信号。对于整个麦克风阵列系统来说,延迟系数和加权系数决定着极性图。该方法可以通过系数调整来设计满足电子耳蜗特定应用场景的极性图,以实现目标信号的增强和干扰信号的抑制。对于 n 个麦克风来说,麦克风阵列系统的总输出 y(t) 的表达式如式 (1) 所示:
式中 βi 和 τi 分别是第 i 个麦克风的加权系数和延迟系数。
对于不同的加权系数和延迟系数,可以形成不同的波束指向。在电子耳蜗应用中,由于尺寸的限制,双麦克风信号采集是常见的模式,在该模式下可产生全向型、双极型、超心型和心型等常规波束。
2 电子耳蜗麦克风阵列语音增强的方法
2.1 固定波束形成方法
固定波束形成方法适合应用在固定方位的目标声源的情形,所设计波束的极性图固定。在电子耳蜗实际使用的场景中,面对面交谈时的正向方位是目标信号的方位,而干扰噪声则来源于其他方位。在此场景中,所设计的波束需要对正向方位的信号有最大的系统响应,其他方位的系统响应则应该较小。由于电子耳蜗尺寸的限制,目前文献中电子耳蜗信号采集一般采用双麦克风模式,可形成双极型、超心型和心型等常见的波束,这三类波束最大的系统响应方位均在正向。如果对其中一个麦克风增加一个增益参数,则可形成更加多样的极性图,例如,可形成从正向到后向单调平滑过渡的极性图[18]。该极性图所对应的不同方位的系统幅频响应如图 2 所示。
双极型、超心型和心型是常见的极性图,共同特点是正向方位的系统响应最大,区别在于系统零点的位置。双极型极性图的系统零点在 90° 和 270° 方位,可用于去除两侧的干扰信号;心型极性图的系统零点在 180° 方位,可用于去除后向的干扰信号;超心型的系统零点在侧向和后向之间,可用于去除侧后向的干扰信号。图 2 是针对特定场景设计极性图所对应的系统幅频响应曲线,可以看到,正向方位的系统响应最大,侧向和后向的系统响应单调平缓降低。该极性图可用于增强方位为正向的目标信号,同时可以减少其他方位信号的突然变化,有助于提高电子耳蜗的舒适度。从上面的分析可以看到,各类固定波束形成方法的参数固定,极性图固定,主要针对特定的应用场景。
2.2 自适应波束形成方法
对于单一噪声源和噪声源方位时变的情形来说,可采用自适应波束形成的方法。双麦克风系统可通过延迟参数的设置,形成特定波束指向的极性图。在该极性图中,存在一个系统幅频响应为零的点,不同的延迟参数对应的零点方位不同。自适应波束形成方法是通过对噪声特征和方位进行参数提取,自适应地调整延迟参数,让零点的方位一直跟随着干扰噪声的方位,从而抑制干扰噪声和增强目标信号[19-21]。以双麦克风系统为例,不同的延迟参数所对应的极性图和系统零点如图 3 所示。
图 3 中的 d 为双麦克风的间距,c 为声音在空气中的传播速度,本文取 340 m/s。从图 3 可以看到,当改变延迟值时,系统幅频响应最小值(即系统零点)的方位会发生变化。例如,延迟 0 时,系统零点在 90° 和 270° 方位;延迟 d/c 时,系统零点在 180° 方位;而当延迟在 0 和 d/c 之间时,系统零点分别在 90~180° 和 180~270° 区间内有两个对称的系统零点。自适应波束形成方法是通过对干扰信号的估计和方位的判断,自适应地实时调整参数,让系统零点始终跟随着干扰噪声方位,从而实现噪声去除。
2.3 双耳电子耳蜗的方法
Zeng[22]在报道中指出,在目前的方向性麦克风或者噪声去除技术用于前端声音处理的方法上,最为成功的是两个方面:一是双边或者双耳电子耳蜗的应用;二是结合助听器和电子耳蜗的使用,尤其是对于残存少量低频声音听力的情形。双耳佩戴助听器和电子耳蜗的示意图如图 4 所示。
Lockwood 等[23]采用了非因果最优滤波器方法设计频域波束形成器,把两个麦克风放在两侧双耳位置(相隔约 15 cm)。该算法可以较低失真地提取目标信号,并具有计算量较小的优点。对于电子耳蜗使用者来说,植入电子耳蜗往往是因为该侧耳存在重度聋或者极重度聋的情况。如果对侧耳还存有部分残余的毛细胞,则可在该对侧耳佩戴助听器,形成双耳的模式[24-25]。研究表明,双耳模式的电子耳蜗有助于提高使用者的言语识别能力和声源定位能力;另一方面,当对侧耳朵中存有残留的声音感知能力,则双侧耳朵同时佩戴助听器和植入电子耳蜗有助于改善噪声环境中的言语识别[26-27]。中国科学技术大学等机构的研究表明:具有正常听力的被试者收听电子耳蜗声学模拟语音时,如果在他们的另一侧耳朵中加入低频语音信息,则能够显著提升语音成形噪声中的中文语音识别[28]。
2.4 单通道语音增强技术和麦克风阵列结合方法
单通道的语音增强技术对平稳噪声有较好的去除效果,而麦克风阵列的方法则适合应用在目标信号和干扰噪声在空间方位上分离的情形,两者的结合是近年来电子耳蜗前端语音增强技术的热点方法之一。单通道语音增强技术和双麦克风阵列相结合的方法可增加方位信息,有助于更大幅度地提高信噪比。传统的方法是用线性约束最小方差来改进维纳滤波器,而双耳频域最小方差算法则把失真最小化从时域应用到了频域[23]。Kates 等[29]则设计了一个 5 麦克风的阵列,并结合了最小方差无畸变响应的自适应波束形成技术,最大限度地抑制噪声并实现了自适应的噪声控制。针对小间距的电子耳蜗实际应用场景,清华大学声学与认知工程实验室的宫琴团队[30]提出了基于谱参数分析和估计的双通道语音增强算法。该算法适合用于去除单一噪声源的音乐噪声和语音噪声,如图 5 所示。
图 5 描述的是一种典型的单通道语音增强技术和麦克风阵列结合方法。该方法通过前端的两个麦克风来采集目标信号,对其中一个麦克风给予延迟,然后组合形成两路输出。两路信号由于包含了空间方位信息,它们的目标信号和干扰噪声信号的成分不同,再结合单通道语音增强技术则可以实现不同方位干扰信号的消除。
2.5 麦克风阵列语音增强方法的总结和言语识别率的关联分析
前面阐述了目前在电子耳蜗应用里最为常用的语音增强算法,其共同特征是通过空间中放置若干个声音传感器来增加空间方位信息,主要区别是所结合的语音增强技术和具体的应用场景。在日常使用场景中,电子耳蜗使用者最迫切的应用需求是提高面对面交谈时的言语识别率,源于正向的信号被认为是目标信号,而干扰噪声则源于其他方位。因此,麦克风阵列的方法通过空间不同位置的信号采集来获取方位信息,再结合特定的语音处理技术分离出目标信号。在上述的四大类语音增强技术中,固定波束形成方法的参数固定,因此波束指向也固定,主要应用在噪声方位固定的场合,计算量低。自适应波束形成方法的参数不固定,参数需要依据噪声方位的变化而实时更新,计算量大,适合应用在移动噪声源和非确定噪声源的场合。双耳电子耳蜗的方法则主要是用于患者存有部分残余毛细胞的情形,该方法通过两耳同时佩戴助听器和植入电子耳蜗来增加一个声音信号的获取渠道,充分利用了患者残存的少量低频声音听力感知能力,有助于提升使用者的声音定位能力。单通道语音增强技术和麦克风阵列结合方法则非常多样,主要目标是提高信噪比和去除干扰噪声。由于单通道语音增强技术已经比较成熟,将该技术与麦克风阵列所提供的空间方位信息相结合,有助于提高去噪的性能,缺点是计算量较大。
言语识别率是电子耳蜗语音增强技术评价的重要指标,在具体实验研究中,字出错率、词出错率和句子出错率等都是测试指标。目前的麦克风阵列语音增强技术是通过设计特定的极性图和提高信噪比来实现的,其实验基础是前期学者对电子耳蜗使用者的言语识别率和信噪比的关联性研究。例如,曾凡钢的研究表明,植入电子耳蜗的耳聋患者在安静环境下的言语识别率较高,在噪声环境下的言语识别率大幅度降低。Nelson 的实验研究表明,要达到 50% 的句子识别率,正常人所需要的信噪比约 − 10 dB,而植入电子耳蜗的耳聋患者需要的信噪比则是 5~15 dB。因此,通过设计指向目标信号的极性图或者通过语音增强算法来提高信噪比,都可以让电子耳蜗使用者恢复在类似“安静”环境的使用场景,有助于提高言语识别率。
3 麦克风阵列语音增强技术在电子耳蜗应用中存在的问题
3.1 低频滚降失真
麦克风阵列的系统响应表达式是一个多参数的函数,其中频率是影响系统响应的主要参数之一。以双麦克风在间距为 1 cm 为例,选取 1 000~ 8 000 Hz(间隔 1 000 Hz)的 8 个频率来描述其波束特征,如图 6 所示。
从图 6 可以看到,不同频率条件下的系统极性图是不同的。在电子耳蜗应用场景条件下(间距 1 cm)可以看到:频率越大则系统响应越大,频率越小则系统响应越小。对输入为低频信号来说,经过麦克风系统后的不同方位的增益系数均比高频信号小,由此产生了麦克风阵列中的低频滚降现象[31-33]。低频滚降是麦克风阵列波束形成里的特有现象,其结果是导致信号在不同频段的能量重新分布,并且主要是衰减了低频信号的能量从而产生了信号失真,为此,需要对低频信号给予额外的增益来调整和均衡不同频段的信号输出。从理论上说,一阶差分麦克风的低频滚降是 6 dB/倍频程,而二阶差分麦克风的低频滚降是 12 dB/倍频程。从图 6 可以看到,虽然不同频率条件下的波束大小不同,但波束之间存在较大的相似性,通过适当的信号补偿方法可以实现不同频率条件下的各个波束重新匹配。基于电子耳蜗实际的参数特征,清华大学等研究机构提出了基于双麦克风的归一化波束形成方法和多参数条件下的低频滚降补偿算法,这些算法采用线性化的方式进行低频滚降补偿,具有计算复杂度低的特点[34]。
3.2 信号补偿中的噪声过度放大
对于麦克风阵列所存在的低频滚降问题,目前的方法是调整不同频段的增益。由于低频信号的系统响应小,因而给予低频信号的增益会更大。但是,电子耳蜗所采集的信号既包含目标语音信号,也包含环境噪声信号,而日常应用场景中的环境噪声信号则主要以低频信号为主。以实际采集的语音信号和在餐厅场景下的噪声信号为例来进行说明,其频谱对比如图 7 所示。
从实测的常见环境噪声(餐厅中嘈杂的场景)的频谱图中可以看到,常见环境噪声的主要能量集中在低频的频段位置上。麦克风阵列会导致低频滚降的产生,对于语音信号来说,其频谱能量也是集中在低频的位置。但是,低频滚降后的信号其低频能量会受到更大的削减,因此,需要对语音信号进行能量补偿。由于环境噪声来源多样并且含有随机噪声,阵列中的各个麦克风采集到的噪声信号具有较大的非相关性,因而噪声的低频滚降没有语音信号明显。电子耳蜗前端的麦克风采集的信号包含了目标语音信号,也包含应用场景中的环境噪声信号。当麦克风阵列系统中发生低频滚降失真后,对信号的调整主要是增大低频信号的增益。此时由于环境噪声主要集中在低频段,其结果是环境噪声会被过度地放大,导致信号补偿后的信噪比并没有相应地提高,因此影响了电子耳蜗的言语识别率[34]。对环境噪声过度放大的抑制是麦克风阵列低频滚降补偿中的关键难点之一。由于信号过程中语音和噪声同时被采集,频谱间相互重叠,而且环境噪声本身也具有多样性,因而环境噪声的抑制在技术上具有复杂性。
3.3 电极数量限制及信号分辨率问题
麦克风阵列应用在电子耳蜗前端信号采集中可以增加空间方位信息,但是滤波器组本身有限的频带限制了信号提取的质量,并导致目标信号的信息丢失。电子耳蜗滤波器组的频带数量是由电极阵列的数量决定的,滤波器组的每个频带与电子耳蜗的一个电极对应。电子耳蜗言语识别率难以提高的根源是电极设计方面在近年来几乎没有进展。近几十年来,电子耳蜗中所使用的电极的变化主要是形状从球形和环形到盘形(平面型)的变化和电极阵列长度和厚度的变化,但电极的尺寸和电极与神经元之间的数量失配却没有改变。有学者研究指出:从 1980 年到 1995 年这 15 年间,电子耳蜗相关文献的发表速度很快,呈现指数增长的速度,相应地,电子耳蜗的句子识别率也提高很快,从 0% 到接近 80%;而在随后的 20 年里(1995 年—2015 年),文献发表速度仍很快,但句子识别率却没什么提高,其原因是缺乏耳蜗电极与耳蜗神经之间接口这方面的技术改进[22]。电极的尺寸是神经元尺寸的 1 000 倍以上,也就是说电极数量不到神经元数量的千分之一。目前电子耳蜗电极的特点是尺寸大和数量少,其结果是电极的刺激位置太宽和频率分辨率太低,电子耳蜗电极与耳蜗神经的数量失配限制了电子耳蜗性能的提升。
3.4 麦克风间的增益失配和运动偏移失配问题
在多麦克风应用中,麦克风采集的信号存在传输衰减,并引起了不同麦克风间的增益失配问题。仿真实验表明,当双麦克风发生增益失配时,不同频率的波束形状的相似性变差,其中,低频信号的波束逐渐趋向于具有全向性特征的圆形波束,而高频信号的波束则影响相对较小。当增益匹配时,通过低频滚降的补偿可以得到一致的归一化波束,而增益失配时,归一化波束之间变得不一致,因此,增益失配会降低低频滚降补偿的效果。
对于电子耳蜗来说,实际使用场景会存在使用者佩戴电子耳蜗时发生偏移以及在走动过程中麦克风产生震动等情形。运动偏移失配对单个全向性麦克风的影响很小,但对方向性麦克风的影响较大。以楼氏电子的超薄单指向/全向组合型麦克风(thin uni-directional/omni-directional microphone pair,TP)为例,每个 TP 型方向性麦克风包含两个声管用于信号采集,两个声管既可以垂直放置(型号为 TP-24612-000),也可以对称放置(型号为 TP-24620-000)。声管垂直放置和对称放置的这两类麦克风均可输出具有心型波束特征的信号,该输出信号的强弱与声源方位有关。心型波束有一个方位的系统幅频响应最大,该方位位于 TP 型麦克风两个声管中心点所连接成的几何线段的一侧(另一侧是系统幅频响应最小处)。当发生震动时,单个方向性麦克风的波束形状本身没有发生变化,只是束中最大幅频响应的方位发生了偏移。对于两个及以上的方向性麦克风组成的系统来说,其震动偏移情况更为复杂,系统的波束形状本身也发生了变化。以声管两端对称的两个方向性麦克风为例,当发生震动偏移时(方位角度变化 1~8°),双指向性麦克风系统的波束变化情况如图 8 所示。
从图 8 中的角度偏移 1~8° 的双指向性麦克风极性图对比来看,正向范围(方位 0~60° 和 300~360° 范围内)的各个波束互相重叠。该结果表明角度发生偏移后对正向及正向附近方位的系统幅频响应影响不大,波束之间互相匹配。而侧向和后向方位则不同,不同角度偏移所对应的波束差异较大,波束之间互相不一致。由于电子耳蜗使用者在行走或者移动状态下麦克风会发生一定程度的偏移,从前面的分析可以看到,震动偏移对正向、侧向和后向的信号影响不同。而对于电子耳蜗的具体应用场景来说,目标语音信号主要源于正向,也有部分信号源来自侧向和后向,因此震动偏移对目标信号的影响及信号补偿方式也是难点之一。
3.5 双耳信号采集及波束变化问题
近年来,电子耳蜗双耳信号采集受到研究者更多的关注。将两个麦克风放置在双耳位置进行信号采集,可以增大麦克风间距。如果双麦克风佩戴在同一侧耳朵,由于尺寸限制,麦克风间距一般设置为 1 cm;而如果放置于耳朵两侧,则麦克风间距可增大到 18 cm。但是,间距的增大会直接改变小间距条件下波束设计的模式,波束形状会发生明显变化。以图 6 中的双极型、超心型和心型三类波束为例,选取 1 000~8 000 Hz(间隔 1 000 Hz)的 8 个频率来描述双耳信号采集的波束特征,如图 9 所示。
对比图 6 和图 9 可以看到,当双麦克风的距离从小间距的 1 cm 扩展为双耳间距 18 cm 时,系统所形成的极性图的特征发生了巨大的变化。第一,小间距条件下的双极型、超心型和心型波束特征已经不存在,双耳间距条件下的波束出现了多个指向性的波束旁瓣与波束零点。第二,小间距条件下的双极型、超心型和心型波束的最大系统幅频响应的方位都是 0° 的方位,而双耳间距条件下的波束最大系统幅频响应的方位则并不一定在 0° 的方位,而且常常同时出现多个最大指向的位置。第三,小间距条件下波束存在低频滚降特征以及不同频率的波束之间存在相似性的特征,而在双耳间距条件下,波束之间的相似性已经消失,而且低频信号的幅频响应并没有比高频信号的幅频响应小,低频滚降的特征也不存在。目前应用在电子耳蜗语音增强的算法往往是基于小间距条件下进行波束设计和噪声抑制的研究,双耳信号采集及波束变化问题限制了算法的有效性,因此双耳间距条件下的算法需要重新进行修正和研究。
4 总结与展望
电子耳蜗在噪声环境下的言语识别率仍然较低,提升言语识别率需要在电极工艺、言语处理策略和前端信号增强等方面有进一步的研究和技术突破。麦克风阵列波束形成技术和语音增强技术适合用于前端信号采集,并切合电子耳蜗使用者所面对的目标语音和干扰噪声在空间方位上分离的应用场景。由于尺寸的限制,电子耳蜗实际上更多地采用双麦克风信号采集的模式。然而,双麦克风模式不利于获取丰富的空间方位信息,不利于多噪声源条件下的语音增强,这方面有待进一步的研究和算法上的突破。本文阐述了麦克风阵列信号采集的方法和波束设计的原理,归纳了目前国内外相关的应用于电子耳蜗的麦克风阵列语音增强方法,并进一步分析了目前存在的关键技术难点。本文重点阐述了低频滚降失真、信号补偿中的噪声去除、电极数量和分辨率的工艺限制、麦克风失配、双耳信号采集所产生的波束畸变等核心问题。结合近年来的文献情况,目前有关的研究热点和趋势包括双耳模式信号采集、麦克风失配及补偿、虚拟电极阵列、高分辨率策略、去噪技术融合、算法实时性等方面的研究。就近年来的研究热点和技术进展来看,可以预见,随着新算法的提出以及关键技术难点的突破,麦克风阵列语音增强技术有望进一步提升电子耳蜗在噪声环境下的言语识别率,从而拓展电子耳蜗在复杂环境下的使用性能,并推动电子耳蜗的广泛应用和电子耳蜗产业的发展。
利益冲突声明:本文全体作者均声明不存在利益冲突。