Press "Enter" to skip to content

会在精读和泛读中自由切换的神经网络

卷积神经网络采用类似初级视觉皮层的操作方法高效处理图像数据,而自然语言处理尚未有一种结合认知机制的奠基性模型。在本文中,研究者提出了变焦网络(Zooming Network)的概念,它很好地结合了泛读与精读过程,可以更好地对长时依赖特征进行建模。

  • 论文题目:Zooming Network
  • 论文地址:https://arxiv.org/abs/1810.02114

设计动机
神经网络模型之所以能够在人工智能的各个领域大放异彩,除了凭借强大的拟合能力和各类梯度下降方法之外,还要依靠网络结构基于数据信息分布特征的针对性设计。比如,多层全连接网络虽然在理论上可以拟合任何函数,实际应用中的效果却往往差强人意;而另一方面,多层卷积神经网络由于采用了类似大脑初级视觉皮层信息处理方法的卷积操作与参数共享方法,对图像信息进行高效的特征提取(充分利用了图像中的平移不变性、局部信息连续性),可以使用少得多的参数图像处理任务上取得非常好的效果。
我们认为自然语言处理领域尚无一种类似卷积网络的在图像处理领域具有奠基作用的模型。究其原因,是我们尚未充分利用自然语言数据和任务天然具有的特征进行模型结构的改进。自然语言天然地具有如下特征:1)自然语言(文本)是由一些基本语言单元(如单词、字、词)构成的序列;2)语言单元具有层级特征,低级语言单元可以构成高级语言单元(如多个字可以组成一句或一段文本);3)语言单元的划分不是随机的,而是包含着语者或作者的信息表达策略;4)不同于图像数据,基本语言单元不具有像素一样的局部连续性,而是高度信息符号化的。
为了更好地利用上述文本特征,我们提出了变焦网络(Zooming Network)的概念。整体上看,变焦网络由三个主要部分组成:层次化编码模块、变焦控制器模块、符号推理模块,分别完成针对语言单元特点的编码过程、解码过程,以及针对自然语言符号化的推理辅助解码。我们将该网络设计应用到长文本序列标注任务上,取得了非常好的效果(f1 score 超过 bi-LSTM-crf 模型 10% 以上)。

层次化编码(HIERARCHICAL ENCODER)
人在阅读文本时既按照时间顺序累积信息,又伴随着不同级别的信息抽象。这对应着人类语言文字共有的两个重要特征:时序化和分级化。我们对与编码模块的设计就是利用了这两个特征:使用双向长短时记忆层(bi-LSTM)对单一语言单元层级进行顺序地读取、编码;使用最大池化操作(max-pooling)模仿人脑由低级语言单元抽象高级语言单元信息的过程。通过层次化编码,我们赋予每一级每一个语言单元一个向量表示(hierarchical distributed memory),并保留其句段划分的分界信息。
变焦控制解码(ZOOMING CONTROLLER)
变焦控制器本质上是一个序列决策模型。不同于经典的循环神经网络(RNN)模型:1)变焦控制器每次不是接收单个基本语言单元的信息,而是接收当前位置上的字、句、段三级信息,这样可以使模型同时掌握细节特征(detailed local feature)和整体特征(global feature),以更好地进行状态更新。2)在每个解码标签序列的时刻,变焦控制器可以选择当前解码长度,可以选择输出任意层级语言单元对应的标签,而不仅限于基本语言单元(字/字符)。3)在预测标签之后,读取位置会自动跳转到与解码层级一致的下一语言单元的开头,而不是直接跳转到下一个基本语言单元。这种解码过程使得变焦控制器对文本表征的阅读方式更加灵活,在信息分布稀疏的部分可以快速略读(Zoom out),在信息分布集中的部分可以逐字精读(Zoom in)。
符号推理(SYMBOLIC REASONING)
在解码过程中,我们可以通过自然语言文本的一些「写作习惯」特征和已经预测出的标签序列,对下文标签规则推理出一些建议标签。例如,在大量的垂直领域文本中,常常出现一些有序列举过程:「1. …… 2. …… 3. ……」。这些有序符号往往成组出现,而且对应内容是等位并列关系,一般具有相同标签(或者相同结构标签)。在实际使用过程中,我们会综合上个序号内容的处理方式,给出下个序号内容处理的最佳路径并以稀疏向量的形式输入到变焦控制器内,使其可以更加高效地处理数据。

实验情况
我们将该模型应用到两组数据的序列标注上:
1)集中式的重点信息抽取:在刑事案件的裁判文书中,对犯罪事件的具体描述提供了整个案件的判决依据,有很重要的分析价值。这些描述往往集中出现,但是由于整个裁判文书的长度多变,案件复杂程度不一,对这些描述的高效抽取既需要快速地略过无关信息,又需要在信息出现的段落进行精细的分析。下图示例中红色及蓝色的文字表示被zooming net抽取出来的部分,不同的颜色则代表不同的犯罪事件标签。

2)分散式的重点信息抽取:在知识产权纠纷案件的裁判文书中,案件的核心是原被告双方争议的焦点。这些信息随着对纠纷的描述不定位置地出现,出现形式也复杂多变,进一步要求模型对处理路径的灵活选择。下图示例中红色及蓝色的文字表示被zooming net抽取出来的部分,不同的颜色则代表不同的争议焦点标签。

我们使用序列标注经典最优模型 bi-LSTM-crf 作为 baseline model 来比较模型的处理性能,实验结果如下(模型参数数量为同一量级):

其中,WA指word-level的整体准确率,wlar指模型使用的逐字读取行为占全部处理行为的数量比例。可以看出,变焦网络的性能远超基线模型,而且具有很高的处理效率(大量地使用句、段级别的标签预测行为)。这个过程的具体示例如下:

其中,蓝色部分表示模型使用了句级、段级的预测,红色部分表示模型使用了字级的预测。可以看出,在信息意义不大的部分,模型选择了略读,而在关键信息出现的地方,模型采用了精读的方式处理。另外一个有意思的现象是,模型对于「经审理查明」等带有指示功能的语句一样采用了精读方式处理。
总结
借助句段结构信息,变焦神经网络很好地结合了泛读与精读过程,可以更好地对长时依赖特征进行建模,引入大跨度动作提高效率,尤其在篇幅很长的文本处理中表现得更为明显,在关键信息的抽取任务上,f1 值较经典序列标注模型(biLSTM+CRF)有 10% 以上的提升。在此基础上引入神经符号化推理模块后,其处理效率又有了一个显著提升。变焦神经网络非常适合应用于各类长文本处理任务当中,其使用的编解码方式也可结合其他技术推广到各类自然语言处理任务中,产生新的火花。
 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注