Press "Enter" to skip to content

看都不看,我就知道你没戴口罩

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

编辑 | 陈大鑫

 

新冠肺炎在全球蔓延的趋势丝毫没有缓和,全民戴口罩已成为日常,就连号称“美国新冠死亡率最低”的特朗普也戴起了口罩,你还有什幺理由luo奔?然而,在炎炎夏日,不少人觉得戴口罩是在受罪,纷纷放松了警惕,于是我们看到了各种各样的戴口罩姿势。

 

       ( 新冠肺炎全球新增确诊和累计确诊统计图。图源:丁香医生)

 

比如,像这位大叔的下巴垫姿势已成为很多人戴口罩的常规姿势:

 

 

而这位大叔,你这样戴口罩是在骗谁呢?

 

 

或许很多人也是害怕在被漫长的盛夏烈日暴晒之后,变成这副样子:

 

 

但为了自己和他人的健康着想,还是得谨记,戴口罩才是正义!

 

 

为了让大家能乖乖戴上口罩,一般都是通过人力监督强制执行。这种方案虽然行之有效,但这样的工作确实枯燥且费时费力。但AI科技评论今天发现, 原来AI技术也能用来监督人们戴口罩 。一般而言,我们下意识想到的可能是利用视觉算法。但是,我们能不能利用其它信息来检测一个人是否戴口罩呢,比如语音信息?

 

人类能从一个人的口音中得到什幺样的信息?显然,答案是多不胜数。例如不同地方的人都有自己独有的“家乡话”,在交流的过程中通过讲话就能大概判断出你是哪里人。

 

 

再例如,一个人通过男/女朋友的说话语调,就能判断他/她是否无中生有、暗渡陈仓、凭空想象、凭空捏造、胡言乱语……

 

 

对于在视觉领域已经遇到瓶颈的AI来说,这些信息正是“破冰”的关键!例如卡耐基梅隆大学发布了一个应用程序,声称可以根据语音识别某人是否患有COVID-19。虽然此技术存在缺陷,也因为缺少经过验证的数据,无法测试应用程序的准确性。

 

但初步研究表明,基于AI的语音分析可以相当准确地诊断其他情况,包括创伤后应激障碍和高血压。

 

而近日,来自昆山杜克大学、武汉大学、联想以及中山大学的研究员合力开发了一套AI系统, 号称能够根据一个人说话的口音“听”出是否佩戴口罩。 且检测的准确率已经达到了78.8%。同时,这也意味着,在尚未过去的疫情时代,“声音”将会是强制带口罩的有效手段。

 

 

具体检测效果,如上视频所示。作者采用的检测工具是一个黑盒,一个激光器以及一台手机;一共测试了14款口罩,测试时需要戴口罩的人讲话。结论是:N95口罩的检测效果最好;三层的外科手术口罩以及棉质口罩检测效果也很棒;折叠绷带和针织口罩的检测效果时好时坏;围脖以及网罩测试效果最差。

 

1

 

背后的技术

 

 

 

论文地址:

 

https://arxiv.org/pdf/2008.05175.pdf

 

随着COVID-19在世界范围内的传播,许多人开始戴着口罩来保护自己。研究人员发现,戴上口罩会影响语音的的效果,这是由于肌肉收缩、发声量增加和传输损失引起的。

 

而这项根据“口音”判断是否戴口罩的工作来自于:即将到来的2020年国际语音交流会议,具体而言是第11届年度计算语言学挑战赛(ComParE)组织的“口罩检测子挑战”。通过比赛的名字也能够看出,其目标是开发能够根据人的声音确定人是否戴着口罩的算法。

 

在此比赛中,所有参赛者都必须使用包含32名德语说话人的同一个语料库,这些说话人戴着同一款口罩在录音棚中录制10小时的语音。

 

为了增强数据集,研究人员采用了改变语音速率,“扭曲”各种特征,以及随机擦除语音等手段。随后,研究人员使用增强数据集对机器学习系统进行了训练,数据集中也包括说话者不戴口罩时录制的语音。对机器学习系统训练之后,也进行了实验从而测试分类器算法检测口罩的准确率。

 

研究人员发现,尽管该语料库包含相同数量的男女说话者(男性和女性都有16人),AI系统在面对男性和女性时的准确率表现并不一致。

 

对于这一问题,研究人员没有对此进行讨论,但是数据失衡可能是罪魁祸首。例如,说话者讲的是德语,谈论体育、家庭、孩子和食物等事物;只戴一种口罩;年龄从20岁到41岁不等。所以,发音方式不同会增加语言发音的差异。毕竟,一位年长的英语男性的语音与一位年轻的西班牙语言的语音应该会有较大差异。

 

不过,研究人员表示,在给定的德语数据集上,他们的系统最终实现了比baseline模型更高的准确率(特定类别召回率的未加权平均值为71.8%)。

 

综上,以上研究意味着:从语音中检测遮罩是一个新兴领域,在未来有替代基于视觉的方法的潜力。

 

2

 

实验结果

 

对于口罩检测任务,研究人员实现了两种卷积神经网络系统,即ResNet和DenseNet,以提取高级嵌入,然后在这些嵌入上采用SVM进行决策。研究人员还利用三种数据增强方法,这些方法在端到端框架中实现了重大改进。

 

受到在情感识别方面的工作的启发,研究人员从基于ResNet的预训练性别分类器中自动提取了性别相关特征。这些特征来自使用Voxceleb1数据集训练的性别分类器网络的倒数第二个线性层。ResNet结构几乎与论文《On-the-fly data loader and utterance-level aggregation for speaker and language recognition》中描述的相同,不同之处在于倒数第二线性层的输出节点数为100。

 

为了引入说话者的信息,研究人员按照上述论文的配置训练模型并提取嵌入作为说话者相关特征。在口罩检测器的优化过程中,这两种特征会在不同级别上融合。

 

表1展示了性别特征融合方法与说话者特征融合方法对口罩检测的贡献。融合了这两种特征的口罩检测性能要比其他特征好得多,这表明这两种信息对于口罩检测都是有效的。也就是说,戴口罩可能给说话者语音的性别特征和身份特征带来较大的影响。

 

 

表1:开发集上利用融合性别和说话者特征的口罩检测UAR(%,未加权平均召回率)。

 

在表2中可以看到,与基于DenseNet的系统相比,基于ResNet的系统实现了更好的性能。三种数据增强方法均有助于显着提高性能。

 

与对开发集进行随机擦除相比,SpecAugment方法可实现更大的性能提高。将SpecAugment和随机擦除相结合没有带来改进,这意味着SpecAugment和随机擦除的效果不是互补的。

 

该团队最终提交的系统是将表1和2中标有(*)的系统融合在一起得到的,其性能大大优于测试集上的基准系统。

 

 表2:开发集和测试集上的UAR。

 

3

 

模型和方法

 

与基线深谱系统类似,研究人员从深度卷积神经网络中提取嵌入特征。与通过图像库进行预训练的基线系统不同,该系统是以端对端的方式直接针对戴口罩或未戴口罩目标进行训练的。研究人员分别使用了ResNet和DenseNet的修改版本来提取深度表征。

 

ResNet结构具有三个主要组件:一个ResNet前端模块、两个并行全局池化层和两个线性层结构。ResNet模块由一系列残差块组成,该模块将输入Fbank投影到特征图。然后,在每个通道上应用全局平均池化(GAP)层和全局标准偏差池化(GSP)层,以生成级联的2C维向量。

 

然后,将池化层的输出向量馈送到全连接层中以进行预测。从倒数第二个全连接层的输出中提取嵌入特征。

 

DenseNet的结构遵循Torchvision的实现。DenseNet以前馈的方式将每一层与其他层连接起来,因此有可能减少梯度消失的问题。深度嵌入特征是从平均池化层的输出中提取的。

 

训练模型后,将提取的嵌入馈送到后端SVM进行预测,框架如图2所示。

 

  图2:ResNet嵌入系统的框架。

 

4

 

语音也能完成“视觉任务”

 

其实,在人工智能的研究中,我们已经在视觉和触觉方面取得了巨大的进步,但是对声音的研究一直稍有欠缺。

 

现在有越来越多的研究“看中了”语音中包含的信息,例如来自卡内基梅隆大学的研究员们, 首次对声音和机器人动作之间的相互作用进行了大规模研究。

 

这些研究者对声音中包含的信息,人工智能如何利用这些信息得出了三观察结论:

 

1、声音是完成细粒度物体检测任务的神器;2、声音是行动的指示器;3、从声音可以推断出物体的物理属性。

 

其中,第一个观察意味着:仅仅根据一个物体发出的声音,一个AI学习模型就可以从多个物体中以比较高的准确率识别该物体;第二个观察意味着,通过声音,AI学习模型就可以预测外力对该物体施加了什幺动作;第三个观察意味着,通过声音可以测试物体隐含的物理特性。

 

基于上述三个观察,也让卡内基梅隆大学赋予了机器人听音辨物的技能。这也意味着,用语音信息替代视觉信息,从而完成“某些传统的视觉任务”正在成为趋势。

 

这种趋势也让人工智能的研究越来越符合人的特性!毕竟,在人类世界中,听觉有时候能够替代视觉。

 

参考资料:

 

https://venturebeat.com/2020/08/18/researchers-claim-their-ai-can-hear-if-a-speaker-is-wearing-a-mask/

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注