Press "Enter" to skip to content

人物 | 罗景:多业务融合推荐场景下的深度学习实践

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

58同城TEG推荐技术团队负责人罗景老师受邀参加2020 DataFunTalk年终·大会,做了主题为《多业务融合推荐场景下的深度学习实践》的分享。主要介绍了排序模型从双通道到多通道到多场景适配的演化发展过程。

 

本文根据此分享实录整理而成,欢迎阅读分享。

 

 

背景

 

为解决多业务融合挑战,在兴趣序列化建模的基础上,排序模型从双通道逐步演化发展为1+N的多通道深度兴趣模型,到目前正在探索的多场景适配。以此为基础,本次分享包括三个部分:第一部分:介绍首页猜你喜欢推荐场景,以及面临的多业务融合挑战第二部分:介绍在深度学习模型上,从双通道,到多通道到多场景适配这样的一个发展过程第三部分:简要介绍工程实践相关工作,以及在推荐算法实践中一些总结思考。

 

场景与挑战

 

首页猜你喜欢,是 58App 最大规模的一个推荐场景,日常 UV 千万量级,帖子候选集亿级别,模型训练样本 10 亿级别。它有多业务融合与多目标优化两个显着特点:

 

多业务融合上,候选帖子类型覆盖租房,招聘,二手房,二手车,本地生活,新房,新车等多个业务

 

多目标优化上,涉及连接效率 / 商业收入 / 用户体验 / 用户留存 / 运营活动等多个目标的平衡

 

多业务融合推荐场景下,召回策略 / 重排策略 / 展示样式 / 排序模型上都面临多业务融合带来的挑战。其中,召回上涉及多个召回通道的业务适配,重排上需要保证各业务之间的流量均衡分配,展示样式上也存在展示元素与样式的适配问题。本次分享主要聚焦排序模型上如何通过深度学习来解决相应挑战。

 

传统模型上,比如 XGB , FM 等,在这种多业务融合场景下,面临特征对齐与特征工程复杂两大主要困难:

 

1、 业务差异带来的特征对齐困难:

 

每种业务帖的属性信息存在显着差异,进而导致用户兴趣在不同业务上的差异,这样,样本中帖子特征与用户兴趣特征在维度上无法直接对齐

 

传统上非常有效的反馈特征,也由于业务差异,导致反馈特征的取值范围差异非常大,实际效果并不理想

 

2、 多业务特征工程流程与逻辑复杂:

 

部分特征需要针对不同业务维护特有的数据流程, 比如不同业务的用户兴趣构建, 维护代价大

 

存在业务特定的特征工程逻辑,比如不同业务的匹配交叉特征,复杂度高

 

为应对这些挑战,首页猜你喜欢场景以深度学习作为主要优化方向,行为序列化兴趣建模,排序模型从双通道逐步演化发展为 1+N 的多通道深度兴趣模型,到目前还在探索的多场景适配,接下来进一步介绍深度兴趣模型的演化发展过程。

 

深度兴趣模型演化发展

 

1、 双通道深度兴趣模型

 

针对传统模型在多业务融合场景下存在的这些局限性,深度学习成为了首页排序模型的主要优化方向。近两年,用户行为序列兴趣建模被业界广泛应用,在推荐广告业务上取得了显着效果,它以用户行为序列作为模型的核心输入,具备优秀的兴趣建模能力,同时比较好的解决了特征对齐困难,显着降低了特征工程的复杂度。因此,首页场景也较早的开始了在序列兴趣模型上的探索验证。早期验证工作,主要涉及两个方面:

 

用户行为序列的构建 ,涉及序列构成,表征方式以及序列长度选取,其中:

 

行为序列构成上包括了用户的点击与转化行为

 

表征方式上,采用帖子 ID ,类目,地域等关键属性信息作为一个帖子的表征

 

序列长度选取上,参考不同业务的周期特点,进行了针对性的选取

 

序列兴趣模型的选型 ,分别验证了 DIN , DIEN , Transformer 等不同模型,其中

 

DIN 模型利用注意力机制,通过将用户行为与待推荐帖子交叉来构建用户兴趣

 

DIEN 考虑了用户行为的序列性,引入了兴趣抽取与演化层,支持动态兴趣的刻画

 

Transformer 利用自注意力与多头等机制,通过位置 Embedding 进行序列化兴趣建模

 

选型结论上,最终选择了 transformer 作为序列化兴趣建模的基础组件,主要考虑是在 58 业务场景下,用户兴趣的动态性并不是很强,实验验证也显示三者的效果区别并不是很大。而 transformer 在模型结构上更具可扩展性。

 

针对纯序列兴趣模型验证发现,纯序列兴趣模型的效果并不能超越已有特征工程做得比较完善的 XGB

 

对比特征工程做得比较完善的 XGB 模型与纯序列兴趣模型,分析发现: 1 ),传统模型中的高级特征,比如匹配交叉特征,它的重要度很高,体现了特征优化过程中工程师们对业务的思考理解以及在特征工程上的一些最佳实践; 2 ),而纯行为序列模型虽然通过深度学习提供了强大的兴趣表达能力,也支持与待推荐帖子的交叉,但它缺乏针对业务与场景的定制能力。

 

因此,把 XGB 模型中基于业务场景理解的高级特征( e.g. 匹配交叉特征)与最佳实践引入进来,成为了进一步的优化方向。常规做法是通过特征工程模块构建特征,然后将这部分特征作为数据合并入样本,进行模型训练,这种方法的好处是简单直接,而且能够复用现有的工程流程,但是相应的工程流程与逻辑仍比较复杂。

 

为了进一步降低特征工程流程与逻辑的复杂度,我们在模型中引入特征交叉定制化结构,把特征工程逻辑引入到模型中来,通过对模型结构的定制来替代特定的特征工程逻辑。

 

基本思路是,引入较为原始的基础特征,通过向量化进行表征,在向量化表征层的基础上,在模型结构上支持基于向量的定制化特征交叉。

 

 

模型结构上包括四个基本层次,我们把这一部分模型结构,称之为定制化通道:

 

输入层 为基础特征层,包括帖子 / 用户 / 上下文等原始基础特征, 比如帖子 LBS ,帖子关键标签,帖子标题,帖子首图,用户兴趣标签,用户 LBS ,用户最近的搜索词,最近点击帖子的的关键属性等

 

向量化层 ,通过预训练或者 embedding 手段 构建每个原始特征的向量化表示, 比如帖子首图采用预训练模型构建,帖子标题采用词向量,其他特征采用 embedding 的方式来完成向量化

 

交叉层 基于向量化表示,根据场景与业务特点来构建特定特征对的定制化交叉,可以使用不同的交叉方式,支持 Cos 相似度, DNN , Multiply , Gap 等交叉操作

 

拼接层 ,将原始向量以及交叉后的结果拼接,形成定制化交叉模块的输出

 

引入定制化通道,与纯序列模型拼接后,再连接 MLP ,形成双通道模型架构,我们把它叫做双通道深度兴趣模型。在这样一个模型结构下:

 

 

定制化通道: 基于各特征维度的向量化表示,允许根据业务特点进行定制化交叉,提供了业务与场景的定制适配能力,支持融入工程师们对业务场景的理解与思考,也是在逐步将更多的特征工程逻辑引入到模型来,进一步强化模型,弱化特征工程

 

序列化通道: 利用序列化建模组件,基于用户行为序列自动抽取用户兴趣,提供了深度模型在用户兴趣上的抽象表征与交叉能力

 

双通道模型在首页猜你喜欢场景落地后,实现了对特征工程密集优化的 XGB 模型的稳定超越,点击率提升 3% ,曝光转化率提升 5% ,成为主力模型。在效果提升的同时:

 

它显着降低特征工程复杂度:通过在定制化通道引入特征交叉能力,以及基于用户行为序列的建模方式,使得特征工程流程数大幅减少,复杂度也明显降低

 

建立了序列化兴趣模型线上线下的工程架构基础:解决离线在线性能问题,成为主流排序模型

 

也是进一步优化的基础:后续的多通道模型升级以及多场景适配探索都是以双通道模型为基础的

 

2、 多通道深度兴趣模型

 

序列化兴趣建模进一步的优化方向考虑上,我们认为关键在于怎幺更精准的刻画用户兴趣。目前业界,基于单行为序列,结合业务特点,有不少深入的优化工作,比如:

 

深度会话兴趣模型,通过对行为序列的会话切分,基于会话对用户兴趣进行结构化建模

 

长序列用户行为模型,以神经图灵机为基础对行为序列进行处理,在保证线上预测性能的前提下,使用更长的用户行为序列,进一步提升兴趣建模的精准度

 

基于搜索的终身行为序列建模,采用两阶段方式,首先从用户历史行为序列中找到跟待推荐商品的相近行为,然后基于选取的行为进行精细化兴趣建模

 

这一方向上,我们也做了一些验证工作,尝试引入更长行为序列以及行为序列的再抽取,发现在本地生活服务这种低频,需求聚焦的业务场景下,带来的收益非常有限。

 

基于用户行为低频 / 需求聚焦这样的一个业务特点,我们尝试在广度上引入多种异构用户行为序列,以实现对用户兴趣更全面立体化的刻画。

 

在这样的一个思路引导下,我们提出了 1+N 多通道兴趣模型, 1 代表定制化通道, N 代表基于用户点击 / 搜索 / 转化 / 内容等行为序列通道。进而形成了定制兴趣,基础兴趣,表达兴趣,核心兴趣以及辅助兴趣等多种形式的兴趣表征,对用户兴趣形成更全面立体化的刻画。模型架构上,分为四个层次:

 

输入层 以用户行为序列作为核心输入,包括点击,搜索,转化,内容浏览等多种行为序列;

 

兴趣抽取层 ,通过各个通道学习相应的兴趣表征

 

定制化通道,建立用户最近行为以及上下文与待推荐帖子之间的向量化交叉,形成定制兴趣

 

点击行为通道,基于点击行为,与待推荐帖子进行自注意力交叉,构建基础用户兴趣

 

搜索行为通道,建立主动搜索行为与待推荐帖子的关联,形成用户的表达兴趣

 

转化行为通道,根据用户的进一步转化行为,与待推荐帖子进行自注意力交叉,构建核心用户兴趣

 

内容行为通道,根据用户在文章内容上的浏览行为, 与待推荐帖子关联,形成起到补充作用的辅助兴趣

 

这样,定制通道提供了基于业务与场景的定制化兴趣建模能力,而多种用户行为序列通道,利用序列化建模组件,提供了对用户兴趣的深度抽象表达能力。这样就从多个维度上实现了对用户兴趣的立体化刻画

 

拼接层 将各个通道的兴趣表征进行拼接;

 

融合层 通过 MLP 网络进一步对兴趣进行融合。

 

 

多通道深度兴趣模型,从用户点击,搜索,转化,内容浏览等多种行为中抽取用户兴趣。

 

一方面它非常适合于 58 这种行为低频的业务场景,能够从多维度行为上补齐低频导致的兴趣刻画短板,另一方面,它从不同角度来聚焦刻画用户兴趣,适合需求 58 相对聚焦的业务特点。

 

接下来,我们对部分通道简单做一个介绍

 

转化行为通道:

 

它以转化行为序列作为输入,以 transformer 为建模组件。转化行为体现了用户进一步的交易意图,相比于点击浏览行为,它的数据更为稀疏,但也更能体现用户的真实需求。

 

这里重点关注下,转化行为中帖子的表征方式。点击行为序列中,使用了帖子 ID 作为点击行为的表征组成部分,但在转化行为序列中,如果继续沿用的话,数据就会过于稀疏,模型效果并不理想。因此,针对转化行为数据稀疏的特点,引入了聚类 ID 的概念,作为转化行为表征的重要组成部分,替代了帖子 ID 。

 

 

聚类 ID 在泛化能力与区分度上能取得较好的平衡,它的信号强度弱于帖子 ID ,但泛化能力更好。具体操作上,以每个帖子的关键业务属性组合来进行聚类,相应的关键业务属性组合值作为聚类 ID ,后面会进一步介绍

 

搜索行为通道:

 

搜索行为通道的模型结构还是类似的,输入用户全站的 query 行为序列,建立 query 与帖子的表征后,再进一步进行序列化兴趣抽取。

 

引入搜索行为通道的关键在于:怎幺填平 query 与帖子二者之间的异构表征差异,将其映射到统一的表征空间中,从而保证特征的可交叉性。

 

 

目前,我们采用了基于词向量的语义表征方式,基于业务语料数据,进行了词向量训练,形成预训练好的词向量数据

 

帖子上,抽取帖子标题与核心标签来表示一个帖子,这里有两个细节简单说明一下

 

1 ,抽取什幺样的核心标签,根据业务特点,我们发现用户在不同类目上的搜索关注点非常聚焦,租房主要搜商圈小区等地域信息,二手车主要搜索品牌车型等信息,招聘以职位信息为主,因此为了简化,只把这些搜索关注点纳入到核心标签中,而且这些信息通常表示为帖子的某个特定字段,容易抽取

 

2 ,为什幺不使用描述,分析发现,描述信息过于宽泛,内容长但是信息量不足,相关性也比较弱,因此没有纳入作为帖子的表征组成部分

 

这样,每个帖子也就可以通过一个文本片段来表达了,也就可以采用基于词向量的语义表征方式了

 

基于词向量的语义表征也有不同手段,比如 LSTM ,语言模型等,目前我们采用了 Avg pooling 的方式,也就是基于词袋模型,对 query 或者帖子文本片段中词的词向量求和平均。主要也是考虑标题以及 query 中的词顺序对相关性影响不大,而且从工程实践上来说也更为简单。

 

内容行为通道:

 

内容行为通道的引入,主要出发点是越来越多的互联网公司都在针对业务构建自己的内容体系,以提升用户使用时长,忠诚度与留存等。 58 也针对业务特点,构建了以部落为载体的内容体系,在提升用户留存 / 忠诚度的同时,辅助用户决策与业务引流。

 

 

通常内容与业务有较强的相关性,因此将用户内容浏览行为应用于业务推荐,可以辅助发现与补充用户兴趣,尤其是在业务行为稀疏的业务场景下

 

常规做法 是构建用户兴趣标签:根据用户内容浏览行为,提取用户在业务上的偏好,然后将其应用于业务贴的推荐。这种做法的一个局限就是需要进行内容理解,并将其映射到业务属性上来。

 

实践中,从用户行为序列建模角度,我们考虑了两种方案:

 

第一种方法是 语义空间映射 ,基本思路是将文本内容进行关键词与类目提取,然后采用与搜索行为通道类似的方式,在语义空间上进行交叉,这种方式的突出问题是内容贴与业务贴在语义相关性上通常很弱,表征能力大打折扣,而且随着内容的多媒体化,也为语义表征带来了困难

 

第二中方法是 行为窗口的协同表征 ,是一个新思路,采用基于行为窗口的协同表征方法,这种方法,目前还在验证阶段。

 

简单总结一下多通道深度兴趣模型,多通道模型的关键在于,对不同类型的用户行为如何采用合适的表征方式,从而建立行为与待推荐帖子之间的交叉关联。其中:

 

点击行为通道,每个行为采用帖子的关键属性与帖子 ID 来进行表征

 

转化行为通道,根据行为的稀疏程度,权衡表征特征的泛化能力与信号强度,采用聚类 ID 与关键属性进行表征

 

搜索行为通道,基于词向量将搜索词与帖子文本片段表征到 统一的语义空间

 

内容行为通道,采用词向量表征是当前可选的一种方式,但是存在比较大的局限性,行为窗口协同表征是后续探索的一个方向

 

多通道深度兴趣模型,从用户点击,搜索,转化,内容浏览等多种行为中抽取用户兴趣,适合 58 这种低频 / 需求聚焦的业务场景特点,可以较好的补齐低频导致的兴趣刻画短板,形成更全面的兴趣刻画。

 

目前,多通道深度兴趣模型在首页猜你喜欢场景落地,整体效果上,多通道深度兴趣模型在曝光转化率上实现了进一步提升,目前线上相比基线模型,提升幅度超过 10% 。

 

 

通道效果上,从优化实践来看,点击行为序列的效果优于搜索行为序列,搜索行为序列优于转化行为序列,内容行为序列还在探索验证阶段。

 

3、 多场景适配

 

多通道模型在首页猜你喜欢场景落地的同时,也在探索怎幺将其应用到其他推荐场景下。 58 业务体系下,有像首页猜你喜欢这种推荐场景,是典型的多业务融合推荐,也有业务模块内部的单业务推荐,以租房为例,有列表页的少无结果推荐,详情页的相关推荐,业务大类页的个性化推荐。

 

目前我们是每个场景分别训练自己的排序模型,每个模型基于场景特点有自己独有的一些特征与结构。这样做面临两个主要挑战:

 

1,   代价比较大,有些场景的 UV 量较小, 单独模型优化带来的收益有限;

 

2,   场景的 UV 量过低,样本也就比较少,完全基于场景样本训练深度学习模型,过拟合现象比较严重。

 

 

因此模型的迁移能力成为我们重要的一个探索方向:能否通过业务适配,将首页模型迁移到租房大类页场景;能否通过场景适配,将首页模型迁移到租房的少无结果推荐尝场景以及详情页的相关推荐场景。

 

为了支持场景适配,我们对多通道深度兴趣模型做了相应的升级:

 

首先是引入了场景适配层 ,基于场景表征,通过注意力机制对定制兴趣,基础兴趣,表达兴趣进行场景注意力适配。不对转化兴趣与辅助兴趣做适配是因为转化行为产生的核心兴趣与内容行为产生的辅助兴趣,是全局兴趣,是与业务场景无关的。其中适配网络通过拼接通道兴趣与场景表征进行交叉学习,最终输出适配系数。

 

其次是怎幺构建场景表征 ,采用的方式是在点击行为表征中引入场景 ID ,点击行为通道在抽取基础兴趣的同时就学习到了场景表征。

 

第三个改变是在定制化通道中引入更丰富的场景化特征交叉逻辑 ,以覆盖不同场景的需求。

 

目前多场景适配还在实验验证,初期目标是希望适配模型能够与特定场景专门优化的模型效果上做到持平。

 

 

工程实践

 

前面主要介绍了多业务融合场景下,我们在深度学习模型上的优化路径: 从序列化兴趣模型验证,到双通道模型,再到多通道深度兴趣模型的提出,以及目前的多场景适配探索。

 

接下来简单介绍一下实践落地中的一些工程化工作。模型架构只是在逻辑上反映了对业务的建模能力,要有效落地,还需要进行工程架构改造、模型性能优化、数据流程建设以及对实践过程中各种意想不到问题的解决。概况起来主要涉及三个方面:

 

训练性能优化 ,刚开始,一个模型的训练时间需要 5 天,通过持续优化,目前控制在 5 个小时内完成训练,按天更新,期间的优化涉及并行化、数据格式改造、存储方式、特征处理前置、采样机制等优化手段。

 

线上性能优化 , 刚上线超时率 10% ,逐步调优至 0.3% , 优化涉及:

 

请求 batch 大小调优,通过性能测试,目前一个 batch 大小控制在 15 到 20 之间

 

模型解耦上线,由于平台目前无法支持大模型上线,采取了将向量化层剥离出来,将参数存到 redis 中来支持上线的方式

 

用户数据 Batch 内共用,之前每条样本有各自的用户数据,但一个 batch 中用户数据是相同的,可以共享的,共享处理后,网络传输性能有显着的提升

 

模型调优 ,重点关注行为表征优化,对效果提升起到关键作用,从使用帖子 ID ,关键属性到使用聚类 ID ,以及基于词向量的语义表征等方式,内容行为的协同表征方式。

 

这里和大家分享两个具体的点:

 

1 ,用户行为序列的时效对齐

 

碰到的问题是,离线训练效果显着优于基线模型,上线后效果却并不理想,诊断发现是用户行为序列在训练阶段与预测阶段时间上未能对齐。

 

 

机器学习有一个核心假设,就是要求训练数据与预测数据是同分布的,在这个问题里,训练样本中,用户行为序列从这个样本的曝光时间往前推,线上预测时,用户行为序列从当前时间往前推。看起来都拿的是最近的序列,也是对齐的,没什幺问题。

 

但我们在对实时日志分析时发现,客户端日志回流存在一个不确定的延迟,这就相当于预测时,我们是拿不到最近的用户行为序列,而训练数据使用的是过往数据,不存在日志回流延迟的问题,总能拿到截止曝光时间的最新数据,这也就导致训练数据与预测数据不是同分布的。这里对问题定位很关键,确定问题后,解决思路就比较明确了,我们统计了日志回流时延分布,发现 90% 以上的行为日志回流时延在 2 分钟以内。

 

 

这样,一个简单的做法就是,我们在构建训练样本时,也就不拿截止曝光时间的数据,而是往前推两分钟。修正后的实验对比显示,效果还是比较明显的,相比对齐前,点击率有比较明显的提升。

 

2 , 行为表征方式

 

基本的做法是,采用帖子 ID ,类目,地域等属性信息来综合表征一个帖子。其中,帖子 ID 信号强度强,区分度高,但数据通常比较稀疏,尤其是在转化行为上。类目地域属性信息的泛化能力较好,但是区分度又有欠缺。

 

因此我们在结合业务实践的过程中,构建了聚类 ID 作为对帖子的一种重要表征方式。基本思路是,针对每个业务选择相应的核心属性,将每个核心属性的取值组合起来作为聚类 ID ,这列举了几个主要业务线的关键组合属性。

 

 

以租房为例,把地域 + 价格 + 户型作为关键组合属性,其中价格会进行分桶操作,比如,展示的这个帖子,它的关键属性组合就是酒仙桥 _6000-8000_ 两室一厅,也就是聚类 ID 。这种表征方式在泛化能力与区分度上能取得比较好的平衡。

 

深度序列化模型确实大幅的降低了特征工程代价,大家也把注意力更多的聚焦到模型上来

 

但是,特征工程在效果优化过程中发挥的作用仍然是不可忽视的,比如模型中对一个行为的表征方式,以及定制化通道中的特征交叉,个人认为仍属于广义的特征工程范畴。只是在模型结构中进行的特征工程,姑且称之为是模型工程下的特征工程吧。

 

总结展望

 

技术上,模型优化从纯序列兴趣建模到双通道到多通道深度兴趣模型以及场景适配迁移能力的探索,工程实践中也涉及线上性能优化 / 离线训练优化以及模型调优等。针对这些优化,我认为它的关键驱动因素是业务结合,因此这里简单探讨下模型优化中的业务结合思考。

 

 

上图例举了电商,资讯,生活服务在业务特点上的一个简单分析,不全面,也不一定对,仅仅作为一个示例。

 

但 58 业务场景下的模型优化实践经历来看,会发现模型优化与用户需求集中度,行为可追溯程度,物料结构化程度,时效性特点,用户使用频次与周期等存在着密切的关系。理解这些业务形态与特点,有助于我们在具体的业务场景下做好模型优化。

 

多通道深度兴趣模型的提出与优化过程,也是一个结合业务,融合业务特性的过程。比如

 

因为 58 ,用户使用频次低,在没有足够信息刻画用户兴趣的情况下,多行为序列的引入成为了我们的主要探索方向

 

因为 58 用户有固定的业务周期且需求明确程度高,因此我们并没有过多的关注怎幺扩展序列长度,而是根据业务周期选取确定合适的行为序列

 

因为 58 的帖子信息结构化程度高,这样在用户行为表征上,我们引入了聚类 ID ,在内容挖掘理解上,直接提取核心属性信息

 

后续工作上,针对首页场景的多业务融合特点与多目标优化特点,将聚焦两个方面

 

多通道深度兴趣模型的进一步优化 ,包括

 

1,   内容行为序列的优化,采用行为窗口协同方式来进行表征

 

2,   负反馈行为序列的引入,这个会作为我们后续进一步优化的考虑点

 

3,   以及模型的场景适配迁移能力落地

 

多目标优化也会是重点的一个探索方向 ,对应场景介绍中的多目标平衡特点

 

1,     由于 58 的非闭环场景特点,无法直接跟踪到最终的交易行为,因此目标定义存在更大挑战,这一方面还需要持续探索

 

2,     与此同时,模型会进一步优化多任务学习模型,探索强化学习

 

附:场景整体优化

 

简单介绍下首页猜你喜欢场景的整体优化工作,也给大家提供一个更全面的优化视角。效果上:首页猜你喜欢场景,过去一年半时间里,大盘效果,曝光转化率提升 50% 。优化策略涵盖四个层次,这里简单例举一些关键优化点和大家探讨

 

召回上:

 

引入特色召回通道:比如再营销召回,冷启动召回优化,场景化召回。

 

向量化召回:在采用 W2V 方式的基础上,逐步过渡到基于双塔模型的方式。

 

召回配置化:从采用手工配置各召回通道额度优先级等,到逐步基于数据驱动,支持热加载实时配置生效,也在探索自动调节 / 动态调节的可能性。

 

排序上:

 

模型架构优化:也是本次分享的主要内容,主要是从双通道到多通道深度兴趣模型到多场景适配这样一个优化过程。

 

多目标优化:目前还在初级阶段,主要是基于现有的模型架构,采用 ESSM 做多目标模型训练,后续多目标优化会成为我们的重点方向

 

重排上:

 

打散策略上:从规则打散到基于相似度的柔性打散策略, 也考虑通过模型的方式支持重排,目前还没有资源来支持。

 

展示上,重点做了两件事情:

 

样式对齐:针对无图业务引入特色展示元素,比如招聘贴没有图片,展示上就无法与其他业务对齐,体验问题突出,通过多次迭代后,引入了头像等元素进行补充,体验与效果都有明显提升。

 

推荐解释:引入推荐解释,并从生成策略,密度控制,维度优选等几个方面进行了优化。

 

作者简介:

 

罗景:58同城TEG推荐技术团队负责人/高级算法架构师。

 

TEG推荐技术团队以提升连接效率/打磨关键技术能力/服务业务产品为团队愿景,在工程架构/模型算法/产品形态上持续迭代升级。目前,排序模型上,基于序列化模型构建了适配58业务特点的多通道深度兴趣模型,成为了主要场景的主流线上模型,仍在进一步结合业务探索新模型架构/ 强化学习/迁移学习等的落地应用,期待和大家进一步探讨交流。欢迎感兴趣的同学加入团队,算法与工程同学都需要,简历可直接发送至罗景,邮箱:[email protected]

 

参考文献:

 

[1] Covington P , Adams J , Sargin E . DeepNeural Networks for YouTube Recommendations[C]// Acm Conference on RecommenderSystems. ACM, 2016:191-198.

 

[2] Zhou G , Song C , Zhu X , et al. DeepInterest Network for Click-Through Rate Prediction[J]. 2017.

 

[3] Zhou G , Mou N , Fan Y , et al.Deep Interest Evolution Network for Click-Through Rate Prediction[J]. 2018.

 

[4] Mikolov T . Distributed Representations ofWords and Phrases and their Compositionality[J]. Advances in Neural InformationProcessing Systems, 2013, 26:3111-3119.

 

[5] Feng Y , Lv F , Shen W , et al. Deep SessionInterest Network for Click-Through Rate Prediction[C]// 2019.

 

[6] Qiwei Chen, Huan Zhao ,et al. Behavior SequenceTransformer for E-commerce Recommendation in Alibaba.2019

 

[7] Pi Q , Bian W , Zhou G , et al.Practice on Long Sequential User Behavior Modeling for Click-Through RatePrediction[J]. 2019.

 

[8] Qi P , Zhu X , Zhou G , et al.Search-based User Interest Modeling with Lifelong Sequential Behavior Data forClick-Through Rate Prediction[J]. 2020.

 

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注