Press "Enter" to skip to content

除了网红,强化学习也能带货?

 

小叽导读 : 如今新媒体营销已屡见不鲜,本文通过分析新媒体营销的局限性,阐述了如何利用强化学习提升新媒体营销的效果以及如何实现一个能契合业务意图的强化学习策略模型。与此同时,作者分享了其在业务算法探索过程中的经验 以及思考。

 

背景

 

什幺是新媒体营销

 

什幺是新媒体营销?设想这样一个场景,A 公司最新出了一款口红,他们想方设法得让你们的女朋友们知道这款新品,于是他们做了这幺几件事:首先努力憋出了个文案,找了几个微博的大 V 各种发发发,转转转;深夜还写了一篇煽情的微信软文《女人这一生必败的十支口红》,偷偷把自家那支也塞了进去,趁着夜色,匆忙找了几个公众号发了出去;可又听说口红圈大家都看某佳琦,于是又赶紧喊他来直播带货,OMG 地推销一下,最终就是希望大家的女朋友们能接触到关于这支口红的各种软文、图片、视频、直播等等营销广告,然后,买它!

 

区别于电视、报纸、广播等传统媒体广告营销手段,新媒体营销投放是一种新兴的广告营销传播途径,是一种主要通过互联网途径传播和扩散的广告载体,例如我们平时接触的微信、微博、抖音、快手、小红书等都属于这一范畴。随着互联网、网红经济的不断发展,相较于传统媒体营销,新媒体营销具有高效、精准、触达人数高、成本低、受众广等优势特点,越来越受到广告主们的青睐。市场上也有各种各样的新媒体广告营销投放平台(供应商),通过一系列的资源整合、分配、投放等手段,去帮助广告主提升营销效果。

 

如何完成一次传统的新媒体营销

 

如何帮助 A 公司完成这支口红的新媒体营销,让你的女朋友看到后买买买呢?听起来和把大象装进冰箱一样简单,分成三步,流程如下图所示:

 

 

1  确定营销项目需求

 

第一步就是要和 A 公司讨论清楚要怎幺营销这支口红。就和装修一样,需要确定总预算和装修风格、要不要装地暖等等事项。首先确定本次营销活动的主题或品类(例如 A 公司的这支口红 ) ,预算金额(10万),需要涉及的传播渠道(微信、微博、抖音、小红书等),KOL 的号段类型(时尚、段子手、美妆等),核心发布类型(图文、vlog、漫画等),涵盖的投放阶段(预热,爆发,收官),传播周期,期望传播效果等等。

 

2  确定渠道投放策略

 

这二步就是要明确 A 公司给的这 10 万该怎幺花。在确定和分析理解清楚 A 公司的项目需求后,从业者需要根据预算,对各种不同类型的号段,在不同渠道、不同投放期、不同头腰尾下进行预算分配,最终会形成一个策略投放矩阵,类似下图所示的格子矩阵,其中的每一个格子都有可能存在预算比例,求和为 100%。

 

 

3  确定投放 KOL 号段组合

 

第三步就是要确定找哪些 KOL 来帮你宣传这支口红。在确定好策略投放矩阵后,进行 KOL 号段组合。例如依据上述策略投放矩阵,从业者会依据自己的经验,从自己的微信 KOL 库中,选取部分适合在预热期使用、号段类型为 2,为头部号段的候选微信 KOL,并使得选取的 KOL 总费用不超过总预算的 2%。重复上述的操作,直至全部格子处理完毕。

 

以上三步都完成后,最后就是 KOL 在约定的时间,通过自身账号进行事先约定的广告投放,最终是希望 A 公司的这支口红能收获好的传播效果,触达更多的人群,实现更多的转化。例如微博阅读数、转赞评、微信的在看数等特别多,要是能上个热搜就最好了。以上就完成了一次传统的新媒体营销活动。

 

当下新媒体营销的局限性

 

在先前,整个新媒体营销投放的核心决策步骤 2 和步骤 3 主要以专家模板 + 经验导向为主,但新媒体市场日渐扩大,业务复杂度较高,行业从业者需要根据不同供应商不同渠道的资源掌握情况,以及业务需要的变化,高效调整投放策略响应业务需求,而且新媒体市场资源数量大且瞬息万变,经验导向和人肉数据整理很快将跟不上市场变化。因此需要基于对新媒体营销资源的数字化,形成 [项目需求 – 投放策略生成 – 号段组合 – 线上投放] 的一整套新媒体营销数字化行业解决方案。

 

本工作主要是在新媒体营销投放过程中最为核心的渠道投放策略上进行算法赋能,针对目前的投放策略部分,我们认为有以下局限和待改进的地方:

 

从大的角度来说,通常行业从业者给出的策略投放矩阵是一个专家级的经验或者经验模板,经验本身就存在局限性,有巨大的提升空间,例如咱们的世界围棋冠军柯洁干不过人工智能 Alpha Go,还被 Alpha Go 虐哭了。

 

基于经验的策略投放矩阵,存在滞后性,在现实中,面对项目类型、活动预算等因素的变化、以及 KOL 候选库的不断更新(新的、优秀的 KOL 层出不穷),经验会存在严重的滞后。

 

我们认为一个理想的智能策略投放矩阵,应该会依据不同的待营销项目的类型、预算、风格、投放时间等等因素,进行自适应的调整,给出一个满足广告主意图的策略投放矩阵,而不是从始至终使用一套固定的模板或者专家经验导向。针对以上新媒体营销的局限性,机器学习的分支——强化学习方法非常适合在这样的场景使用。

 

上述名词解释:

 

KOL:关键意见领袖(Key Opinion Leader),通俗的来讲一个微博大 V 就是一个 KOL,一个微信订阅号也是一个 KOL,B 站的一个 up 主也是一个 KOL。

 

头(腰/尾)部号段:通常通过粉丝量来衡量,粉丝数特别多的(例如微博的千万粉丝数级别)是头部 KOL 号段,次之的为腰部号段,再次之为尾部号段。

 

号段类型:即 KOL 的属性,有些 KOL 擅长写段子,他的号段类型就是段子手;有的 KOL 长期主推母婴产品,他的号段类型就是母婴等等。

 

发布类型:KOL 发表的内容形式,例如图文、视频、vlog、漫画等。

 

投放期:预热,爆发和收官,代表一个营销活动在整个传播周期内前中后三个时期。

 

传播周期:营销广告投放的时间段,比如 2020.05.01 – 2020.06.01。

 

强化学习如何赋能新媒体营销

 

在这里我们要通过强化学习来更好的利用、花好 A 公司的这 10 万,让来 A 公司这款口红的营销更加成功,那什幺是强化学习?强化学习是如何让 A 公司的这款口红的营销更加成功呢?

 

什幺是强化学习

 

传统机器学习方法通常可以归类为有监督学习 (Supervised Learning),无监督学习 (Unsupervised Learning) 以及强化学习 (Reinforcement Learning,RL) 中的一种。一般的,有标签的回归,分类等方法都是有监督学习;而聚类就是典型的无监督学习;而例如虐哭世界围棋冠军柯洁的 AlphaGo 围棋程序则运用了强化学习方法。其中,强化学习最大的特点是其交互式的学习方法,在事先没有给定训练数据的情况下,通过自身的不断试错来进行学习。强化学习的过程类似于人类自身天然的学习过程,也因此被认为是迈向通用人工智能 (Artificial General Intelligence,AGI) 的重要途径。

 

 

强化学习通常是考虑这样一个场景:一个智能体 ( a gent) 在一连串的时间步 (TimeSteps) 上与环境
进行交互。在每一个时间步
,agent 接收到一个状态
, 并依据自身的当前策略
(实现从状态到动作的映射),从可能的动作集
中选择一个动作
。于此同时,agent 接收到下一个状态
以及奖赏
。这一交互过程持续进行,直到到达终止状态。由此我们可以得到一个包含有多组状态、动作、奖赏的情节序列

是每个时间步的累计奖赏 ,如下方公式所示,其中 ∈ (0, 1],是对远期收益进行折扣。agent 的目标是最大化期望累计奖赏

 

 

我们以《超级马里奥》这个游戏为例,里面的马里奥就是上面说的智能体 (agent) 。除了马里奥以外,整个游戏场景画面就是环境
,每一帧实时的游戏画面就是状态
,马里奥要根据自己看到的状态
,做出相应的动作
(跑,跳,后退),与此同时环境也会不断反馈信息给马里奥,例如游戏分数的增加、死亡等。马里奥会不断地玩这个游戏,在错误和奖励中不断学习,最终变成一个超级马里奥,轻松通关获得高分。

 

而在新媒体营销这个场景上,我们也是要训练一个这样的 Agent,期望是我们将 A 公司的各种需求预算告诉 Agent,Agent 经过分析计算,给出一个策略投放矩阵,只要按照这个策略投,A 公司的这支口红可以获得比专家经验更好的营销效果。

 

强化学习现有框架

 

强化学习算法框架的初衷是期望通过统一算法框架,使得研究者可以在框架的基础上,进行进一步的算法研究和落地实践,与此同时确保科研研究者的实验基础尽可能保持一致,尽可能保证算法的可复现性,而不是每次都重新造轮子。一个优秀的强化学习框架主要会包括算法模型、训练、实验、监控四个模块。与此同时,需要满足实验简单,开发灵活,可扩展性强,并且具备鲁棒的可复现性,以下是科研领域的一些强化学习框架,供大家参考:

 

OpenAI-baselines

 

地址:https://github.com/openai/baselines

 

这可能是强化学习初学者接触的第一个强化学习框架,github Star 9.6k。笔者作为第一批使用 baselines 的学者,该框架随着时间的推移,抽象程度、模块化的程度越来越高,这对于初学者想通过看源代码理解算法原理并不友好。

 

Google-Dopamine

 

地址:https://github.com/google/dopamine

 

该框架基于 TensorFlow,主打灵活性、稳定性、复现性,能够提供快速的基准测试。

 

Baidu-PARL

 

地址:https://github.com/PaddlePaddle/PARL

 

源于 NeurlPS 2019 强化学习赛事,PARL 与现有强化学习工具和平台相比,具有更高的可扩展性、可复现性和可复用性,支持大规模并行和稀疏特征,能够快速完成对工业级应用案例的验证。

 

DeepMind-OpenSpiel

 

地址:https://arxiv.org/abs/1908.09453

 

一款多玩家游戏平台,支持多种策略和游戏环境,以及相关的分析工具。支持的游戏数量达到了 25 款,绝大多数都和棋牌、博弈相关。

 

天授(Tianshou)

 

地址:https://github.com/thu-ml/tianshou

 

清华大学人工智能研究院基础理论研究中心近期发布开源的强化学习框架,具有 5 大技术优势:代码简洁、模块化、可复现性、接口灵活以及训练速度快。

 

 

技术方案

 

实践总结,强化学习从需求到技术落地主要会涉及以下 6 个步骤:问题建模、算法选择、动作设计、状态设计、奖励设计、模型训练,其中的每一步都至关重要,直接决定最终模型是否能够 work。

 

问题建模

 

将投放策略系统看作智能体(Agent),把新媒体 KOL 线上投放效果预估模型看作环境(Environment),按照业务逻辑顺序与 KOL 线上投放效果预估模型进行多轮交互(Interaction),一次交互相当于处理了策略投放矩阵中的一个格子,agent 给出这个格子应该花多少预算,环境会依据预算进行相应的 KOL 组合优化,并返回投放效果(该效果来自于我们的海量历史投放数据和基于深度模型的效果预测)。我们将这一交互过程建模为 MDP,将满足终止条件(投放矩阵全部格子处理完毕或者预算提前花完)的一次交互序列视为一个 episode,整个强化学习的交互过程和架构如下图所示:

 

 

 

State:环境返回给 agent 的观测值

 

Action:agent 根据观测值,进行投放比例的输出

 

Reward:对 agent 做出的动作,给出相应的奖励,即为广告主目标(意图)的精炼

 

最终的目标是期望在多轮的交互中,获得一个投放策略
使得期望累积奖赏最大化,对于新媒体营销投放而言,就是投放效果最大化。

 

算法选择

 

由于我们场景 action 的维度不是很高,且是一个输出动作为连续值,因此 DDPG 算法是一个较好的选择 (DDPG 在 action 维度很高的场景效果表现不佳)。DDPG 的全称是 Deep Deterministic Policy Gradient,区别于输出 action 的概率分布,DDPG 直接输出一个确定性 (Deterministic) 的 action,为了解决处理强化学习探索和利用的问题, DDPG 需要在 actor 输出 action 后,在该 action 上加一个 noise。

 

在模型上 DDPG 具有 4 个网络,分别为 online actor,target actor,online critic,target critic,引入 target 网络的机制,主要是为了确保训练的稳定性。并且和 DQN 一样,为了打破样本的相关性,采用了经验回访池。与此同时,加入了优先经验回访技术 (Prioritized Experience Replay)。

 

critic 网络:critic 主要用于评价 actor 做出动作的好坏,在网络更新上,critic 的更新方式和 DQN 形式上是一样的,但下一状态的估值,以及下一状态动作的输出,均需要使用 target 网络给出,目标计算如下:

 

 

 

此外 loss 计算如下:

 

 

 

actor 网络: 与环境进行交互,产生训练样本,actor 的更新则完全依赖于 critic 网络给出的评价,目标就是需要朝着 Q 值增大的方向更新自身的参数,计算策略梯度 (Policy Gradient),公式如下:

 

状态建模

 

每个样本的 state 主要包含了当前投放的一系列特征,以及下一个 state,请切记一句话”特征里面的变量一定要能反映当时环境特征”,特征在实际工作中进行了归一化处理以及 one-hot 编码,actor 网络结构如下所示:

 

需求特征:预算、传播渠道、核心传播方式等营销项目中的静态特征

 

实时特征:已使用预算、剩余预算等动态特征

 

投放时期:预热、爆发、收官等时期编码

 

号段类型:段子手号、种草号、情感号、母婴号等号段类型编码

 

 

动作设计

 

动作 a ∈ [0,1] 是取值在 [0-1] 之间的一个连续值,其实际意义就是 agent 在当前的状态下,给出本次请求花剩余预算
的比例。

 

奖励设计

 

Reward 的设计一定要符合业务意图,尽可能缩小与最终目标间的 gap,新媒体营销场景通用的比较显着的业务意图有如下几个:

 

最大化期望传播效果,传播效果为一个综合考虑 KOL 真实粉丝率、真实互动率、价格、预估传播效果、发布类型等多维因素的分数值 Score。

 

头腰尾预算比例层次化,结合实际业务逻辑以及 KOL 头腰尾的价格分布情况,通常一个投放矩阵头部号段的预算的求和比例 > 腰部号段的求和比例 > 尾部号段的求和比例。

 

针对一些异常的预算比例(过大或者过小)给出距离惩罚。

 

针对符合正常的预算比例,但是由于价格等原因,无法获得 KOL 组合的情况, Score 值返回 0。

 

实验效果

 

我们将强化学习方案和新媒体专家级经验投放方案进行了实验对比,强化学习方案相较于专家方案,在核心业务指标(提效果、降成本)上:

 

平均传播效果提升超 35%

 

平均降低成本超 8%

 

也即是,原先 A 公司花 10 万,能得到 1000 个转评赞这样的传播效果,现在只要花 8万,就能获得 1350 的传播效果。不仅如此,得益于对业务意图的充分理解和奖励函数的精心设计,我们在实现核心业务指标提升的同时,确保了各投放比例具备层次性,使得最终策略给出的投放矩阵契合行业逻辑和直觉。

 

总结与展望

 

这里针对本项目的实践,简单地进行一些经验总结和思考。以上,强化学习落地至少需要经历以下 6 个步骤:问题建模、算法选择、动作设计、状态设计、奖励设计、模型训练。

 

 

问题建模

 

一句话:强化学习解决是要解决什幺样的问题——”序列决策问题”,如果你的场景可以建模为 MDP,就可以使用 RL 来尝试。但是,笔者观点,强化学习是很难 work 的,尤其是在实际的场景中。科研领域之所以有那幺多令人震惊的成果,由于主要是在一些 game,控制等模拟场景上进行试验,相对简单,但是实际的业务场景要远远复杂于 game,因此,除非所涉及的场景极度复杂,人类已经没有好的方案了,也弄不懂环境复杂的关系,那幺或许可以尝试 RL,但这应该是你最后该考虑的方法。

 

算法选择

 

自从 2015 年第一篇 DQN 出来后,深度强化学习算法经历了爆发式的增长,尤其是 Google 和 OpenAI,市面上大部分经典算法都是由这两个机构提出,其他更多的是一些改进和提升。笔者观点,目前真正具有普适性和大道至简的算法也就那幺一些:DQN,DDPG,A3C(A2C),PPO,Rainbow,SAC。其中 SAC 是现在的 SOTA 的强化学习算法。在实际落地尝试中,尽量先依据自己的需求,选择以上这些经典的算法作为基础模型,后续随着实验的迭代,再更新新的论文技术。

 

动作设计

 

动作设计遵循两个词:完备,合理。在我们的场景中,动作输出只需考虑 1 维,是一个 0-1 之间的连续值,小于 0 或者大于 1 就是不合理了。这里举例来说明一下什幺是完备,什幺是合理,完备的意思就说动作要全面,一个仿人机器人,头要会动,两只手要会动,两只脚要会动,但是你只考虑了头和手,输出三个维度的动作,就是不完备。而如果你将脚的动作范围设置为 0-360 度的话,那就是不合理,脚是不可能转 360 度的,180 度就是极限了。

 

状态设计

 

状态即是 agent 所感知到的环境信息以及因为 agent 的 action 输出到环境所导致的环境变化。针对状态设计,请记住“里面的变量一定要能反映当时环境特征”。本场景的状态设计相对简单,维度不高,在其他一些复杂的场景,wide & deep 模式会是主流。

 

奖励设计

 

“DRL 成功的关键离不开一个好的奖励函数(reward function),然而这种奖励函数往往很难设计”,你会发现在你设计的 reward 上进行一个简单的尺度缩放,你的模型就有可能直接崩溃,经验上,reward 的尺度还是小一点好。此外,要尽可能把业务意图想的全一点,例如,本方案一开始只想到最大化核心指标 Score 这幺一个数值,结果就会导致给出的策略投放矩阵完全不符合行业逻辑,因此一个多模态的 reward 设计非常重要,需要非常深刻的理解业务,刻画出尽可能接近业务意图的 reward 函数,才能使 RL 朝着正确的方向探索。

 

模型训练

 

模型训练的最终目标是希望 RL 模型能够收敛,并在收敛的基础上,训练所得模型策略符合业务意图。其核心关键是超参数的调整以及对训练过程的实时监控,其中超参数包括 RL 通用超参数、RL 算法特色超参数、深度神经网络超参数等;训练过程监控包括 actor 网络和 critic 网络的 loss 下降情况等。此外,我们认为对于强化学习而言,随着交互探索的情节推进,agent 获得的样本分布一直在发生变化,理论上没有一组固定的超参数配置可以作用于整个强化学习的优化过程,强化学习涉及的各类超参数应该在整个优化过程中进行自适应地调整,超参数自适应才是 RL 的最终归宿,我们认为这会是一个非常有意思的研究方向。

 

本文阐述了强化学习在新媒体营销领域策略投放上的探索和实践,通过巧妙地 MDP 建模和奖励函数的精心设计,我们获得了一个能契合业务意图的强化学习策略模型。未来,我们还会在不同品类的模型迁移能力,线上投放效果预估模型的置信度,深度强化学习神经网络训练中的超参数自适应等方向继续探索和落地。与此同时,我们也欢迎有兴趣的同学与我们联系、交流、指正。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注