Press "Enter" to skip to content

【论文分享】听觉注意 – 2017

日常生活中声音很少孤立地出现。人类和机器一直被嘈杂的声音所淹没,并需要从中整理和搜寻相关的有用信息,这种现象被称之为“鸡尾酒会问题”。解析声学场景的一个关键部分是来自注意力的作用,它通过将感觉系统和认知资源集中到刺激空间的相关信息来调节感知和行为。这里对听觉注意的建模方法进行简单回顾。本综述将重点介绍与注意力相关的大量行为和认知过程,以及对感觉系统的塑造。注意力可以由“自下而上”感觉驱动和“自上而下”任务导向来调节。本质上,它作为一个选择过程或将感觉系统和认知资源集中到声音空间中最相关事件中的过程。这里的相关性是由刺激本身(如大爆炸)或者正在处理的任务,比如在嘈杂的机场听广播。最近的听觉注意计算模型对杂乱听觉场景下感知增强提供了一些关键性的洞察。

 

1. 引言

 

在一次鸡尾酒会中,我们的耳朵经常被淹没在由各种声源带来的大量尖锐声音中。尽管有许多明显的干扰因素,称之为“鸡尾酒会问题”,指导我们听觉注意所面临的挑战涉及到复杂的神经网络和认知过程,使得大脑能够解析环境中的信息。这些过程引导我们感知环境,可以专注于感兴趣的谈话中,享受背景音乐,或者警觉任何显着音,比如有人呼唤我们名字或有电话铃声响起。在整个场景分析过程中,注意力通过将感觉系统和认知资源集中到声音空间中相关的信息上,在调节感知和行为方面起着至关重要的作用。本文综述了听觉注意的建模研究,以及它们对听觉注意研究的影响。

 

注意力不是单一的单向过程。它可以由“自下而上”刺激驱动或“自上而下”任务导向来调节。从根本上来说,注意力是处理信息瓶颈的一种方式,它对进入我们耳朵的大量感觉输入进行采样,并将感觉系统和认知资源引导到声音场景中最相关的事件中。由于听觉场景的复杂性,声音时间的相关性可以由场景本身决定(例如,引人注意的枪声)或者正在处理的任务(比如,在多个竞争声源中追随朋友的声源进行对话)。

 

虽然在听觉研究社区在注意力研究方面已经产生越来越多的研究兴趣,但在声音系统的背景下开发注意力的计算模型仍没有太多研究。这样的模型需要考虑听觉系统能够适应不断变化的声学环境和任务目标的能力。最近的生理学的发现已经修正了我们对听觉系统中处理方式的观点,取代了感觉皮层中“静态”处理的传统观点,采用更加“活跃”和可延展的映射,以快速适应正在执行的任务、声音环境和听觉场景。许多研究表明,我们的听觉经验可以通过改变个体神经元的感受野特性,重塑皮层回路的整体效应,从而产生显着的局部效应。这些效应延伸到早期感知区域,并指示整个听觉皮层的注意力调制,探索鸡尾酒会环境下听觉通路的分布式处理特性。

 

虽然听觉注意的神经基础研究正在蓬勃发展,但我们对于自适应刺激或任务导向处理的确切作用尚处于起步阶段。这一领域最大的挑战是缺乏理论支撑,这些理论包括听觉通路中具有自适应和认知过程能够形成复杂听觉场景下的行为和感知的皮质回路机理。相比之下,视觉系统的主动和自适应处理探索的更多。包括视觉丘脑(LGN)中预测编码,初级视觉皮层(V1)中的上下文调制,较高皮质区(V2和V4,MT区)的注意调制,以及顶叶和额叶皮质的决策。尽管如此,最近的理论研究提供了最新的研究表明跨模态的主动注意中存在一些共同的处理过程。

 

关于理解听觉感知中注意作用的概念框架已经出现了一些观点。大部分研究工作与视觉的理论紧密相关,其中的注意力被视为包含选择、整合以及采样等多方面现象。一种观点认为,注意可以被认为是过滤或选择机制。这种解释直接对应感觉皮层中感受野的特性,神经元可以视为滤波器,其特性可由任务定向注意力调制,并且其活动可以自适应感觉器环境。在更大的范围,这种观点延伸到基于物体或语义的选择过程,从而关注特定的目标或类别的声音(如语音、音乐)参与到特定神经回路中。这一观点与视觉中的选择理论相似,它提出了仅在流水线中处理相关信息的框架,无论是在早期还是后期,作为减轻感知系统有限计算资源的信息瓶颈。另一种观点认为,注意可以被认为是整合机制,其中注意力反馈作为对某些特定感兴趣刺激的偏置处理。在复杂的环境中,许多声音感知理论都支持这种观点,认为注意力就像是一个“胶水”,将属于同一事件的元素绑定在一起。目标形成和选择性注意之间的这种交互作用指导前景和背景的组织,以及声音目标和干扰者感知表示的相互影响。

 

该综述的目的是提供一个当前在听觉场景分析情况下的构建注意力计算模型方面的概述。图1提供了本综述中的一般概述。这些模型可以分别划分到自下而上或自上而下的听觉注意过程中,尽管它们局限于手工筛选的实验观察。文章还回顾了感觉驱动和任务驱动注意力模型的相关观点,并讨论了一些尝试验证这些模型的工作。该综述还涉及到这些模型在音频系统和听觉技术中的相关应用。

 

 

图1. 该综述中描述了听觉注意模型中的两大类。其中,重构技术不是传统声音感知的前馈计算模型,但这些方法对于理解任务导向注意提供了有价值的观点。

 

2. 听觉注意模型

 

(a )自下而上注意

 

在听觉文献中有关自下而上听觉模型的工作非常稀少。这方面的有限努力极大地得益于在视觉领域自下而上注意力(或显着性)方面的研究。事实上,视觉显着性研究已经是一个蓬勃发展的研究领域,已经有了丰富的研究成果,在检查视觉显着性的感知属性,以及其行为相关和内在的神经解剖学方面。另外,视觉显着性的计算模型已经基于这方面知识并采用可利用的标准化眼睛追踪数据集来开发贝叶斯和层次化的感知模型。这些模型不仅可以解释人类在自然场景中的行为,还能够扩展到多种可能的计算机视觉应用中,以解决诸如机器人、医学成像以及监控系统等领域中具有挑战性的视觉场景。

 

基于视觉模态的传统方法,自下而上听觉注意的早期模型主要借鉴视觉显着性模型。Kayser等人早期在该方向做出一些工作。这项工作将声音的时频表示视为一种“听觉图像”。模型的后端基本上是视觉显着性模型,其中所有特征被缩放以生成多尺度图,然后将其归一化形成听觉显着性图。虽然操作相对简单,该模型能够可靠地匹配人类和猴子在不同场景下对显着音刺激的行为反应。这项工作不仅表明大脑中的显着性处理在感觉模态上具有共享性,而且它还提供了设计心理声学实验的指南,以探索人类听觉自下而上的注意过程。

 

这一初步工作后来扩展到更复杂的听觉特征分析中。Kalinli和Narayanan同样采用听觉图像和显着性抽取框架,不过扩展了特征集,在时间和频率上引入了基频和方向,因此包含了更多听觉相关线索。它还提供了一种改进的对比计算方法导出特征映射,使得它们对噪声和多个显着位置更加鲁棒。Duangudom和Anderson扩展了特征分析,以结合更多的生物学可能的机制模仿听觉外周和中央系统的处理。这种分析允许推导时频调制特性,模仿哺乳动物听觉皮层中的神经反应。这些神经过程提供了传统听觉刺激的多尺度映射,有效地取代了早期听觉显着性模型中偏好的并行特征映射。虽然显着性分析在本质上类似于基于视觉的模型,但这项研究开始倾向于侧重生物合理性。

 

尽管他们在将基于视觉的显着性框架扩展到听觉方面相对成功,但是所有上述模型未能解释听觉和视觉处理之间的重要区别,特别是声音作为随时间变化的实体性质。通过将时间(t)-频率(f)图谱作为听觉图像处理,这些模型将T-F维度视为空间X-Y轴,无法将时间轴作为特殊维度处理。事实上,听觉图像方法忽略了时间轴积累和长短期依赖性,并导致基于未来信息和当前信息之间丢失了因果关系。比如,在一个音乐场景中,如Haydn的惊奇交响曲(图2):一个柔和的弦乐通道突然被一个响亮的、完整的管弦乐章打断,这是一个非常突出的部分。如果和弦不久后重复,你可能会再次感到惊奇,但没有第一次那幺多,因为你现在已经调整了你对这件事可能发生的预期。如果这段和弦开始有规律地重复,它最终会融入音乐并吸引很少的注意力。现在考虑如果这个音乐反向播放,从开始时反复听到向量的和弦。显着性消失了,发生的事件也不再领观众感到惊奇。只有当音乐被认为是一个时间实体时,才有可能产生惊奇。

 

 

图2. Haydn惊奇交响乐摘录的谱图(时间-频率“图像”)。时间标记的部分大约是在第二乐章。令人惊奇的部分是由整个管弦乐队演奏了一段长时间安静的弦乐之后的响亮和弦。如果音乐在时间轴上颠倒过来,惊奇的和弦就不会再令人惊讶了,切换到一个安静的乐章并不像突然切换到一个突如其来乐章那幺令人惊奇。这张图表明了听觉显着性对于时间和背景的依赖性。

 

最早解决这个问题的模型之一类似于Kayser等人提出的时间显着性图,考虑了所有随时间变换的特征,而不是二维图像。特征空间被扩展为包含声音的感知特性:响度、音高以及音色。所有的特征随着时间的推移进行分析,以突出其在视觉模型特征图上规范和整合前的动态特性。相比之下,Tsuchida和Cottrell借鉴视觉方法,提出一种不同的统计学方法。他们的实现方法是将自然声音样本尝试场景统计和当前输入声音的局部快速变化统计相结合。在这个框架中,显着性是一种概率,其中如果它相对于学习的统计数据是不寻常的则标记为显着声音。该模型也是第一个考虑特征使用的计算效率问题,其中采用耳蜗图代替光谱图,并应用主成份分析来减少特征维数,同时保持特征的显着变化。

 

即使随着时间显着性模型所取得的进展,借鉴视觉领域注意机制的处理过程固然地限制听觉显着性模型的能力。认识到这一点,建模听觉注意力的工作开始从借鉴视觉领域的成果转变为直接从听觉通路已知或假设机制的启发进行建模。由于这个研究领域还处于早期阶段,有一系列可能的机制还需要被探索,并且下面的模型已经探索了不同的途径来模拟自下而上的听觉注意模型。

 

Kaya和Elhilali最早提出听觉注意模型,它不是基于视觉领域模型,而是受启发于听觉通路的已知处理机制。该模型探讨了预测编码和听觉偏差检测作为可能的机制,确定大脑中的听觉显着性。这种方法非常重视基于前面语音背景对时间轴上的事件处理和当前声音神经反应的形成。Kaya和Elhilali使用了丰富的特征空间来模拟人类对声音的感知。该模型将声学波形映射到高维听觉空间中,显式地编码传入声音的感知响度,基频和音色,建立不断变化的时间特征。注意力模型收集时间轴上的统计特性,并预测未来的感官输入。当输入特征与预测显着不同时,标记为显着音时刻。该模型的另外一个方面是跨特征整合在指导显着性预测中的作用。早期的模型通常采用简单的线性组合,每个特征具有固定的权重。Kaya和Elhilali提出的模型摒弃了一个复杂场景听觉特征的独立性来引导显着感知,该模型由两两特征之间的不对称权重实现提出了跨特征空间的非线性交互,并受心理声学实验的指导。

 

这项工作中有两个趋势反映在最新的听觉注意模型中:建立声音的概率期望以获得显着性,并利用来自人类听觉感知实验的行为反应来学习与声学特征相关的特性。在Wang等人的工作中进一步探索了从听觉场景中的统计信息中获取显着性的观点。本研究计算Shannon熵作为测量传入声音片段的信息量,并根据他们是否包含大量信息将它们分类为显着的或普通的。这是符合这样的一条概念,由下而上的注意力提醒我们在一个场景中的重要事情。此外,Wang等人的研究提供了一种组合并行通路的复杂系统,包括(i)从MEL频率倒谱系统导出的不同分量上声音特征的时间分析,一种替代和非常流行的基于音调的感知度来表示频率特征的方法;(ii)分析刺激功率谱密度的谱映射和(iii)基于Kayser等人的图像显着性模型。这种复合系统展示了对基于视觉模型进行扩展的优势,并进一步提供了显着性估计的鲁棒性,特别是在真实的噪声场景中。

 

对比更多听觉显着性的理论方法,Kim等人采用更多的数据驱动方法,利用人类行为的显着性判断去训练线性分类器,进行简单的过滤,然后基于数据驱动权重的特征融合。行为数据的搜集来自会议室会议自然录音中的突出位置,这些数据用来训练模型以最大化特征空间中突出和非突出声音片段之间的分离。结果表示,这种新提出的判别式分类器训练好用来检测时间和频率对比,更具体地,工作起来像事件发生检测器。Tordini等人从相反地方向探讨这个问题,而Kim等人使用没有声学特征的先验只是来指导特征估计,Tordini等人测试声学特征在听觉显着性方面的贡献。其他特征,如时间中心,频谱中心,谐波,有效持续时间和节奏都被发现与显着性等级相关。结果还揭示了这些特征之间的相互作用也符合Kaya和Elhilali的观测。

 

值得强调的是,听觉显着性研究的挑战之一是对“听觉显着性和什幺相关”的开放性解释。之前的视觉显着性主要依赖于眼睛注视的度量,尽管它们存在缺点。而缺乏统一的标准来定义听觉显着性仍然是一个主要的挑战。显着性的场景,比如一个响亮的爆炸,或者女性群体谈话中的男生声音,导致足够大的响度或音高差异,每个听觉显着性模型应该能够检测离群事件。然而,一些必须的更复杂处理听觉事件并不是客观的显着性,比如从蝉鸣中注意蟋蟀的声音。在上述大多数模型中提取基于简单图像的特征不足以捕捉时间动态中的细微变化。此外,特征相互作用在确定感知显着性方面起着重要的作用,这是大多数模型未予以说明的要素。

 

(b )自上而下注意

 

与自下而上的注意相反,听觉选择性注意的自上而下模型建立在一个更丰富的工作机制中,需要研究听觉系统中任务驱动注意的神经基础。众所周知,听觉皮层的神经活动很大程度上受到定向注意力调节。胡贝尔等人在20世纪50年代后期较早地发现了当动物注意到新的或令人惊讶的声学事件时,比如猫的叮当声,猫听觉皮层中单个神经元神经活动的调节。这种神经元被称之为听觉皮层中的“注意力单元”。自那时以来,许多研究报告了不同动物模型和不同听觉皮层区域在受控行为条件下类似的“注意力”影响。

 

利用计算技术表征皮层神经元的调谐特性在研究注意力对皮层活动的适应性方面起着重要作用。具体地说,时频感受野(STRF)是个体神经元对声音事件响应选择性的数学描述。STRF是皮层神经元调谐特性的二维时频表示(如图3所示)。从系统理论的观点来看,每一个神经元都可以被认为是一个滤波器,它的STRF描述了激发神经元的时频属性。行为动物的证据表明,随着行为目标的改变,由它们STRF捕捉到的单个神经元调谐特性迅速地适应。这种神经适应或快速可塑性,起到了增强属于目标和前景的时间神经响应时间和频谱调制,并抑制非目标和背景(如图3所示)。事实上,在注意力的控制下,神经群体似乎增强了目标和背景之间的对比度,从而促进关注感兴趣的声音事件。至关重要的是,这个过程是快速的,由注意力引起,依赖于任务和奖赏结构。它反映了动物的行为状态,并横跨初级和高级听觉区域。

 

 

图3. 注意特定的声音特性调节神经频谱感受野(STRFs),并增强注意事件时的神经信号。由小提琴音符制作的频率调制(FMs),表示为频谱图S(t)。当注意FM片段时,STRF适应调制的方向,导致神经响应R(t)的增强。

 

除了在单神经元水平动物模型中的发现,各种非侵入性技术已经被用于研究人类听众在更为复杂听觉场景中的听觉皮层注意力调节。采用功能核磁共振成像和脑电图(EEG)证实了听觉皮层中神经活动的注意力增强。还观察到由听觉注意力空间和非空间形式引起分布活动的神经效应。不同类型的注意力,特别是基于特征和基于对象的注意,似乎诱导不同的激活区域,如颞平面和颞上回的不同区域。回到动物模型中单个神经元的结果,计算方法的最新进展允许使用脑磁图(MEG)和表面电极来分析人类听者的实验记录,其显示相对于未关注声音,对关注声音会产生更大的激活。更进一步,现在正在开发数学工具,以允许从MEG和EEG记录对集合感受野进行估计,这方面正在奠定有前途的基础以来统一不同框架下的结果,以给出大脑中选择性注意处理的完备解释。

 

尽管越来越多的工作支持听觉皮层的反应受到注意力的调节,但是将这样的调节过程转换成计算模型的进展非常缓慢。一种建模的方式是明确表征STRFs的适应机制。Mesgarani等人假设注意工作的焦点是将任务相关刺激和干扰背景音分离开。因此,最优STRF可以被建模为能够最大区分目标声音和干扰声音神经元响应的滤波器,从而产生能够应用于听觉输入物理特征的确定性线性系统。在这个框架中,选择性注意力以多种方式工作,通过限定不同感知目标的约束,比如,当倾听短嘀嗒声音寻找漏水源时,优化成本会随时间的推移而增加,或在一个满是小孩的房间中聆听一个成年男人的声音,低沉的基频会被增强。在相对简单的情况下,该模型在单个神经元水平上提供了注意力效应的有理解释。然而,它的局限性在于它逾越听觉注意本身,而是太关注于声音的物理特性(比如,应关注一类声音而不是特定的示例),并且由于其实现方式对于不同任务是固定不变的。在最后的例子中,如果任务是忽略男性声音,则不能保证与注意任务的不同,因为该模型分了两种声源信号(成年男性和儿童),但缺乏对任务需求的概念知识(目标/分离器)。

 

认识到这些限制,Carlin和Elhilali提出一个框架来解释前景和背景的明确概念,即采用二值标签来区分目标声音片段和由行为任务定义的参考片段。当任务在奖励(前景)和躲避(背景)之间切换时,模型增加任务结构会导致相反的适应模式,与在行为动物初级听觉皮层水平观察到的神经生理反应相一致。该模型被扩展以允许基于对象的注意力选择。这可以将“注意力集中”在基于声音物理特性的简单抽象体上,而不只是声学本身。例如,听演讲作为一个声音类(不管具体的话语和演讲者是谁)需要忽略某特定说话人的声学细节,并对抽象的语音表示做响应以区分和其他类别的特性。研究者对这种基于对象选择作为声音频谱时间动态的幅度和相位分布的约束进行建模,提供的实验结果表明建模的STRFs锐化并定向至符合生理调制效应的目标调制上。未来的研究必须要统一基于特征和基于对象的注意力模型,并提供神经记录数据,可更好地解释声音复杂抽象特征的注意。

 

另一部分工作是通过将在生理实验中观察到的注意力增益纳入实现听觉场景分析计算模型的各种组件中,以更抽象的方式来模拟选择性注意。Kalinli和Narayanan从显着性模型中使用的生物激励声学特征中提取听觉场景的“要点”,并使用神经网络自动学习给定任务(如场景分类)的最优增益。Patil和Elhilali的实现基于一种假设,即注意力是作为感觉信息贝叶斯表示的一种先验。该模型使用了两阶段声学场景识别的计算框架:特征提取阶段,模仿从耳蜗到初级听觉皮层的听觉通路处理过程,以及对象映射阶段,将特征分类到场景类型中。自上而下注意分别在特征层和对象层通过在提取特征的时频谱滤波器上应用增益,并通过调整场景分类器的参数来优化目标场景来进行工作。

 

迄今为止的研究工作已经提出一种前馈方法进行注意力建模:给定声音输入,预测神经元反应并将模型输出与大脑反应进行比较。一些最新的研究则采用相反方法通过重建从记录的神经信号中重构声音输入。虽然采用回归方法从神经记录中重构感知输入不是新的工作,然而采用这种范式研究注意力影响的潜力是最近才被挖掘出来,并呈现出令人兴奋的结果。Mesgarani和Chang重建了颅内记录输入的频谱图来展示神经特征编码了声音的显着性声纹特征。重构频谱与注意通道的高能量时频区域具有较高的相关性。此外,Ding和Simon重建了来自MEG记录的输入声音包络,以表明在多说话人听觉场景中,它与注意语音更接近。这种设置已经被扩展到从自噪杂的单次EEG记录来重建语音,这是EEG领域特别重要的发展里程,其中降噪技术加上大量实验的平均值通常是估计神经信号所必需的。基于这个建立好的框架,生物合理的模型正被设计来重建神经记录的输入声音,使用动态状态空间模型和深度神经网络,扩展我们对系统级注意力增益的理解。

 

3. 听觉注意模型的验证

 

眼球追踪数据为视觉模型提供了客观的评价指标,但听觉注意模型却缺乏清晰的显着性度量方法。综述中提到的大多数注意力模型使用他们自己的验证数据和度量方法,包括在人类响应的单个神经元活动或精心筛选的声音事件或由实验者确定的显着性事件或注意场景。不幸的是,迄今为止,几乎没有达成共识的最佳途径来探讨注意力对听觉感知的影响,无论是任务导向还是纯粹显着性的注意。

 

在最初的听觉显着性模型中,行为实验仅仅是为了说明模型可以客观地检测显着事件,例如纯噪音中的动物嘶喊。后期模型适应了更复杂的范式,其中背景具有可预测结构,并且任务是检测显着事件,它与可预测特征具有偏差。比如在钢琴音符中弹出小提琴音符。虽然这些工作提供了一种结构化方式来研究精确特征的显着感知,但它们的人工结构限制了它们真实环境下显着性的解释。一些工作尝试采用非结构化的自然声音来探测听觉显着性的感知,其中受试者收听真实的录音,并通过接口表示他们认为显着或有趣的时间实例。然而,不同于视觉域,其中自动眼跳可以快速记录许多场景,听觉方法不仅慢的多,效率低,而且受到有意识的决策。听觉显着性直观和客观的基准数据集可能会导致建模工作的明显增加,无论是在设计专门的计算系统,还是对比各种神经注意处理的假设机制。

 

在神经端,来自猫、猴子和雪貂的单个单元记录了听觉系统中注意力对神经活动的最直接影响。虽然对大脑网络注意调节的神经相关信息非常丰富,但它们执行成本太高,对人类研究来说太具有侵入性,并且受限于从复杂皮层网络进行听觉感知可以提取的信息量。它们也局限于相对简单或约束的行为范式,用于训练实验室环境中的动物。

 

最接近人类单个单元记录的是皮层脑电图(ECoG)。该技术虽然仅对神经外科患者具有高度侵袭性和适用性,但仍需要在裸露的大脑上安置电极网格采用丰富复杂的刺激来研究大脑皮层的注意力调节。相比之下,MEG和EEG提供了非侵入性的替代品,适用于更一般的人群。即时它们缺乏ECoG的空间分辨率且容易受到人工制品的影响。不同于其他行为措施,MEG和EEG也允许直接洞察神经过程,而不需要明确的感知决策。然而,需要改进分析技术来平衡噪声的消除和受试者注意和感知状态神经信息的保存,尤其是在复杂的声音环境中。此外,特别是在自下而上的注意研究中,一个共同的实验设计是这样的:受试者被指示忽略听觉输入并继续执行视觉任务,例如观看无声电影或阅读书籍。这种模式容易受到自上而下注意力的干扰来分散听觉刺激并充分参与到视觉任务中。

 

4. 听觉注意模型的应用

 

除了为理论神经科学提供重要贡献之外,注意力模型在各种各样的工程应用中起着重要的作用。特别是,在那些人类可不费力地超过计算机任务的性能可通过注意力机制来改善,其中注意力组件用来作为过滤器将计算资源引导到信息最大的区域上,忽略掉场景中不相关的部分,有效地减少了系统噪音。语音和声音识别就是这样的任务,虽然对人类来说一项微不足道的任务,但在嘈杂环境中的自动语音识别性能显着下降。现有的一些模型已经证明了注意机制可以用来改进现有识别技术。基于特征的方法利用显着性模型的特征提取框架来获得声音输入的感知信息表示。这种表示可以从语音中检测显着音节,或者作为传统语音特征提取和识别的中间步骤,或者直接馈送到用于声音或情感分类的聚类机制。基于任务的自上而下调节已经被融入到注意力系统中,通过将注意力增益建模为分类器的权重以基于特定任务目标来优化性能,或者作为一个单独的认知模型决定要关注多人听觉场景中的哪一个讲话者。一个更全面的注意机制是采用基于生理STRFs的目标导向自适应框架作为语音识别的预处理阶段,通过使目标语音流从混叠语音中分离出来。注意过滤器可以对目标语音提供显着的增益效果,同时对于先前未见过的噪音具有鲁棒性。

 

注意力的优势也被结合到各种计算听觉模型中,这里我们给出一些示例。有计算系统结合了自下而上和自上而下的组件来模仿人在复杂声学环境下的定向注意力。专为高效听觉监控设计的自下而上注意机制显示了对自然场景中枪声和尖叫等令人警觉声音时间的有效检测。参考听觉通路,对自下而上和自上而下的建模技术集成有助于改善混响环境中的声音定位。听觉显着性已被证明是一种压缩数据并保留有意义片段的有效方法。显着性提取也被用作时间信号异常检测,并被推广到肺音领域寻找医学异常。

 

最后,听觉注意模型是视听模型和应用的重要组成部分。近年来,在视觉注意模型中引入听觉显着性信息的必要性越来越收到人们的重视。这导致了使用听觉显着性来引导视觉注意力的出现,以及两个领域在确定定向注意力方面有相同权重的视听模型。这些模型在预测人眼对视频的注视方面比视觉唯一显着模型表现出更好的性能。

 

多模态注意力机制在机器人系统和脑机接口(BCIs)的高效设计中尤其重要。EEG是脑电信号可记录的最便捷方法,从脑电记录中提取认知信息对BCI系统具有特别重要的意义。能够检测聆听对象是谁的刺激重建机制对强大自然的脑机接口有重要影响。特别令人感兴趣的是,这些方法正在被优化以使用更少电极和更快的范例来实现更便捷的实时接口。人工智能系统需要以目标导向方式通过注意过滤来选择感知输入,并能够适应不可预测的自然环境。注意力机制已经在各种机器人和机器传感应用中进行建模。然而,这些系统使用特定的显着性和注意力定义,和这里讨论的计算注意模型缺乏直接的关联性。自从这些机器感知设计依赖,计算建模领域已经取得了显着进展。探索机器人感知中的新型模型可以为未来模型提供有价值的方向,并且随着计算架构开发出精致的生物合理机制,类人机器人将更为接近现实。

 

参考文献:

 

Kaya EM, Elhilali M. Modelling Auditory Attention[J]. Philosophical Transactions of the Royal Society of London, 2017, 372(1714):20160101.

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注