Press "Enter" to skip to content

NRFI:网络结点不会指数增加的「神经随机深林模拟」

 

作者 | 姜蔚蔚

 

编辑 | 唐里

 

论文标题: Neural  Random Forest Imitation

 

中文标题: 神经随机森林模拟

 

作         者: Christoph  Reinders and Bodo Rosenhahn

 

下载链接: https://arxiv.org/abs/1911.10829

 

发表时间: 2019 年 11 月 25 日

 

在过去几年,由于CIFAR-10和ImageNet这样的大数据集的涌现,卷积神经网络在一系列计算机视觉任务中取得了巨大的成功。然而现实世界中的很多问题缺乏大量的带有标签的数据集,卷积神经网络容易在小样本数据上过拟合。另一方面,经典的随机森林模型在小样本数据上表现非常好,不容易过拟合。 这两者的结合诞生了将训练好的随机森林模型映射为神经网络的思路。

 

然而现有的映射方法会为每一个结点创建一个神经元,不仅 导致了神经网络随着结点数目的增加呈指数增长,还创建了非常低效、权重为0的连接 。由于这些缺陷,现有的映射方法只能应用于非常简单的随机森林。

 

这篇论文的贡献在于提出了一种 通过随机森林产生数据以训练一个模仿随机森林的神经网络的新思路 。这种方案适用于复杂的分类器和深层的随机森林,并且可以通过非常少量的数据初始化和训练神经网络。

 

神经随机森林模拟

 

这篇论文的思路主要包含三个步骤:

 

(1)从决策树和随机森林中生成训练数据;

 

(2)增加生成样本多样性和减少冲突的策略;

 

(3)通过学习决策边界,训练神经网络模拟随机森林。

 

 

算法1. 从决策树中生成样本的算法。

 

算法1给出了从决策树中生成样本的原始方法,这个算法的目标是为每一个类别 t 生成对应的样本。从根节点出发,随机生成的数据会被一步一步进行修改,直到它可以被分到算法指定的类别t对应的叶结点。在当前结点n,对应的判断依据特征记为f(n),它对应的数值x会通过一个均值为判断阈值,标准差为f(n)对应的标准差的正态分布随机产生。算法也会依据事先算好的类别权重来选择接下来是要移动到左节点还是右节点。如果随机产生的输入特征数值没有办法路由到算法想要的子结点,为了移动到左节点,x会从f(n)的最小值到的范围内按照均匀分布随机产生。类似地,为了移动到右节点,x会从到f(n)的最大值的范围内按照均匀分布随机产生。当移动到下一个结点后,会重复上述随机生成数值的过程。

 

由于同样的特征会在多个结点中作为判断依据,有时候会发生决策冲突的情况,为此作者们提出了名为路径权重(path weighting,PW),通过一个大于1的权重来保留现有的路由关系,尽可能不修改数据。冲突的问题在使用包含多个决策树的随机森林同时生成数据时也会发生,因此作者们又提出了名为决策树子集(decisiontree subset, DTS)的方法来解决冲突。事先选定一个概率值,每次只使用对应这个概率值的比例的决策树,而不是决策树的全集来生成数据。

 

最后,生成的训练数据被用于训练一个标准的全连接的神经网络。可以看到整个过程中并没有随机森林的结构到神经网络的结构的映射关系,而是通过一个任意大小的随机森林生成训练数据,来训练一个任意大小的神经网络。作为中间连接关系的训练数据就显得十分关键,其中随机森林是基于少量样本训练,然后再被用于生成更大量的样本。

 

实   验

 

这篇论文使用了5个分类数据集进行实验,包括了手写数字集MNIST[1],图像分类集CIFAR-10和CIFAR-100[2],交通标志分类集GTSRB[3]和图像分类集Caltech101[4]。

 

作者们首先评估了方案中数据生成策略的影响,结果见表1。可见主要是DTS方法大大提高了预测的准确率。

 

 

表1. 不同数据集上原始数据生成(RDG)、路径权重(PW)和决策树子集(DTS)策略的评估。表中给出了准确率的均值和标准值。

 

作者们接着评估了不同的神经网络结构对于测试集上的准确率的影响,结果见图1,其中NN-64-64代表一个神经网络第1层和第2层都具有64个神经元,以此类推。随着网络结构变得复杂,神经网络的表现甚至能超越原本的随机森林。

 

 

图1. 测试集上准确率与网络结构大小的关系。红色虚线代表了随机森林的表现。随着网络变大,神经网络表现超过了随机森林。

 

作者们也比较了神经随机森林模拟与现有方法[5,6]的性能,在取得类似准确率的情况下,神经森林模拟可以大大减小神经网络的大小,如图2所示。

 

 

图2. 与现有方法的对比。神经随机森林模拟在保持甚至提高准确率的前提下可以大大减小网络结构。

 

为了验证神经随机森林模拟的可扩展性,作者们也尝试了模拟不同深度的随机森林。现有方法产生的神经网络会随着森林深度的增加而指数变大,而神经随机森林模拟则不会,如图3所示。

 

 

图3. 评估现有方法和神经随机森林模拟的可扩展性。

 

为了验证神经随机森林模拟的鲁棒性,作者们生成不同的随机森林,然后用不同的神经网络进行模拟。Caltech101数据集上的结果见图4,其中实线代表不同结构的平均表现。结果表明神经随机森林模拟对于不同随机森林的鲁棒表现。

 

 

图4. 不同随机森林的模拟。

 

结   论

 

这篇论文提出了一种有效的将随机森林转换成神经网络的方案。与现有方法相比,本文提出的神经随机森林模拟在取得持平或更高的准确率前提下能够大大减小神经网络的结构,并且具有很好的可扩展性和鲁棒性。

 

参考文献:

 

[1] LeCun Y, Cortes C, Burges C J. MNIST handwritten digitdatabase[J]. AT&T Labs [Online]. Available: http://yann. lecun.com/exdb/mnist, 2010, 2: 18.

 

[2] Krizhevsky A, Hinton G. Learning multiple layers of featuresfrom tiny images[R]. Technical report, University of Toronto, 2009.

 

[3] Stallkamp J, Schlipsing M, Salmen J, et al. Man vs. computer:Benchmarking machine learning algorithms for traffic sign recognition[J].Neural networks, 2012, 32: 323-332.

 

[4] Fei-Fei L, Fergus R, Perona P. Learning generative visualmodels from few training examples: An incremental bayesian approach tested on101 object categories[C]//2004 conference on computer vision and patternrecognition workshop. IEEE, 2004: 178-178.

 

[5] Welbl J. Casting random forests as artificial neural networks(and profiting from it)[C]//German Conference on Pattern Recognition. Springer,Cham, 2014: 765-771.

 

[6] Massiceti D, Krull A, Brachmann E, et al. Random forests versusNeural Networks—What’s best for camera localization?[C]//2017 IEEEInternational Conference on Robotics and Automation (ICRA). IEEE, 2017:5118-5125.

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注