Press "Enter" to skip to content

阿里 at SIGIR’2021 | 粗排模型如何进行性能与效率的权衡

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

作者: Enneng Yang

 

单位:东北大学

 

研究方向:推荐系统、计算广告

 

说明:本文仅用于学习交流,如有问题或者侵权请联系后台小编

 

转自深度传送门

 

本文分享一篇阿里巴巴发表在SIGIR’21的点击率预估方面的短文: 粗排阶段性能与效率的权衡:基于可学习特征选择的方法 [1]。

推荐与广告系统通常需要从几百万候选物品中挑选出几十个呈现给用户,由于系统低延迟的约束,在线场景中无法用一个排序模型对所有候选物品进行排序。工业界往往采用如下图所示的多阶段排序架构:“召回粗排精排重排”。

 

召回:从几百万候选物品中挑出几千个(根据兴趣、关键字、…筛选)

 

粗排:从几千个候选物品中挑出几百个(一般使用基于表示的简单模型, 这篇文章的工作属于这个环节 )

 

精排:从几百个候选物品中挑出几十个(一般使用基于交互的复杂模型)

 

重排:对精排推荐的物品排序进行调整(根据业务规则)

多阶段排序架构

召回阶段需要尽可能覆盖用户感兴趣的各种类型物品;粗排模型要求计算快,精排模型要求计算准确,重排考虑业务规则、多样性等。

 

基于表示的粗排模型仅使用少量特征,计算效率高,但表达能力有限。

 

基于复杂特征交互的精排模型使用完整的特征集,精度高,但计算效率低。

 

这篇文章提出的模型希望对两者做一个权衡,使用少部分特征交互(多于粗排模型,少于精排模型)。

提出的粗排模型

三类模型对比如下:

 

这篇文章提出的粗排模型是由精排模型导出的。具体的,假设特征集共有个Field, 把整个输入特征集表示为, 表示特征集合中的第个Field。推荐系统中,精排模型为了保证精度会用完整的特征集合,而粗排模型为了保证效率仅仅使用部分特征集来减少模型复杂度。

 

为了把精排的特征交互引入粗排中,巨大的挑战就是要解决模型的计算效率。模型的计算参数一般由两部分构成,特征对应的Embedding矩阵和神经网络参数。其中特征Embedding参数通常占据了整个模型参数量的以上。因此要把特征交互用到粗排模型中,对于特征的选择就尤为重要。

 

这篇文章提出 Learnable Feature Selection method based on feature Complexity and variational Dropout (FSCD) 方法来实现特征筛选。FSCD权衡了模型的有效性和效率问题,具体来说,有效性通过基于交叉熵的损失函数进行优化,而效率通过下面的Eq.(2)中的特征正则化项进行优化。FSCD可以在单个训练过程中选择有效和高效的特征,与基于向量积的表示模型相比,利用这些特征提高了粗排模型的表达能力。

 

FSCD的学习过程如下:为了选择既有效又高效的特征Field,它为每个特征域(Field)学习一个Dropout参数来表示是否Drop掉整个特征域。然后域中的每个特征都会乘上这个来实现特征筛选。服从一个参数化的伯努利分布。

 

其中,超参数为特征域是否被保留的先验概率,文中把它配置为特征复杂度的函数,即:

 

其中是sigmoid函数,是特征复杂度,换句话说,如果一个特征域复杂度越高,那幺它被保留的概率就越低。特征域复杂度通过下面三项来衡量:

 

: 在线计算复杂度(论文中这里的计算复杂度是根据特征类型手工配置的,具体的可以看下面的图:特征在线计算复杂度)

 

: 特征embedding维度

 

: 这个域中有多少个特征

 

可以是简单的线性函数:

 

论文实验中设置为:, and 。

特征在线计算复杂度

给定个训练样本, ,根据贝叶斯规则可以导出整个样本选择的训练Loss如下:

 

其中是的正则化权重,可以推导得到(论文中给了证明):

 

是一个函数,它让减小,增加。因此一个特征域有大的复杂度时会给一个较大的惩罚,让它更可能被Drop掉。

 

另外,服从伯努利分布的是离散不可导的,它可以被放松为可导的形式:

 

这里Uniform 服从均匀分布,并且在训练过程中会改变。是一个常量,实验中设置为。对于都会趋于或,也就是会逼近一个离散的伯努利分布。影响了域特征的是否被保留的先验概率,它可以通过学习反应出特征的重要性。

 

当参数训练完成后,可以通过保留前Top-k个来进行特征域选择。整个FSCD方法的结构图如下: 在这个图中,训练完后第和个特征域被Drop掉了。

 

挑选出Top-k个重要的特征域之后,可以通过训练数据微调得到的粗排模型。

 

参考资料

[1]

Xu Ma, Pengjie Wang, Hui Zhao, Shaoguo Liu, Chuhan Zhao, Wei Lin, Kuang-Chih Lee, Jian Xu, Bo Zheng. Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach.SIGIR, 2021.: https://arxiv.org/abs/2105.07706

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注