Press "Enter" to skip to content

浅谈反作弊实践经验

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

一. 前言

 

有人的地方就有江湖,混迹于互联网行业中的黑产团伙早已见怪不怪了,比如产品团队精心设计的营销活动奖励全部被机器人抢走、大量虚拟账号24小时挂机薅羊毛,这些行为不仅让正常用户享受不到企业的优惠福利而且还大大损害了企业自身的利益。本文就反作弊这个话题给读者分享一点点浅显的实践经验,如有纰漏,恳请指正。

 

二. 反作弊的职责

 

面对的群体:

 

羊毛党:账号的背后是真人,这部分群体没有给平台做出贡献,但是只要有优惠活动就会一拥而上

 

黑产:账号的背后只有一个或者少数几个真人,这部分群体主要通过技术手段模拟真人,羊毛党的危害之于黑产要小得多

 

羊毛党和黑产的存在会导致什幺后果呢?有可能营销团队耗费巨资的拉新促活方案效果不佳、平台返利优惠券都被机器人抢走了、黑产和羊毛党的活跃造成了一种虚假繁荣的业务景象……反作弊工程师的角色就是充当平台中黑产和羊毛党的“管理员”。

 

三. 反作弊的几个思路

 

衡量反作弊效果主要有两个指标:准确率和召回率,随着对抗过程的深入,对这两个指标的侧重也不同,前期要求准确,后期希望提升召回。

 

1. 规则策略

 

 

    1. 已有策略

 

    1. 日常指标监控:业务方面的比如刷量监控、异常设备注册、异常版本注册、小渠道注册、虚拟机

 

 

2. 基于关联关系识别

 

 

    1. 黑产也是有成本的,他们不可能在一批账号被封禁了之后就废弃设备,而是会重新利用封禁设备注册新的账号,所以可以利用这个特征通过已有风险设备ID取关联出其他的同伙。但是这样做也有缺点,一个是打击面会越来越广,容易误伤,二是设备刷机了之后设备id相应地也会发生变化,导致策略时效性不高

 

    1. 对于确定性很高的特征:比如IP聚集性、异常APP版本聚集性、地域聚集性等也可以设置一定时效的策略以扩大打击面

 

 

3. 基于行为或者物理特征

 

 

    1. 行为上相似:黑产不同于羊毛党,黑产一般是通过机器控制大批量的账号,所以这些账号从行为日志数据上具备很高的相似性,可以通过分析客户端日志事件,挖掘黑产是否有相似性,然而在实际效果可能不太理想,容易误伤

 

    1. GPS坐标、陀螺仪指标是否可疑

 

    1. 设备机型是重点被关注的物理特征

 

 

4. 基于图网络或者机器学习

 

如标签传播(LPA)、图神经网络、GBDT等

 

四. 反作弊的三阶段工作流程

 

1. 防守阶段

 

防守阶段是通过建设护城河直接把黑产挡在城外,让他们根本没有伤害我方的机会,比如通过第三方服务获取设备的风控标签、提高营销活动的参与门槛、增加二次校验防止恶意注册、防火墙等手段,阻止黑产进入到“战场”。

 

2. 攻击阶段

 

 

    1. 理解需要对抗的业务问题,找到一个小的切入点,找到一小部分的黑样本

 

    1. 从切入点或已有的黑样本突破召回一定数量的可疑账户并对其做验证分析

 

    1. 基于第2步,挖掘是否有新的特征并扩大召回的范围并重复第2步骤

 

    1. 监测反作弊的效果,搭建监测机制,比如量化指标异常设备量、可疑版本分布、TOP刷量等指标形成报表、可视化监控大盘,非量化的则是用户反馈、是否有新的模式出现,工程师需要每天观察这些指标变化的情况

 

    1. 定期评估风控策略的效果

 

 

3. 打扫战场

 

攻防阶段的过程中,黑产的进攻手段是在不断进化的,所以我们需要定期开展积累风控规则策略、总结黑产的攻击模式、积累设备黑名单列表等策略以升级现有的攻防策略。

 

五. 算法还是策略?

 

反作弊不同于反欺诈,反作弊的原则是“宁可放过一百,不可错杀一个”,由于误杀会直接影响到用户的体验,在与黑产和羊毛党的攻防对抗中风险与收益是并存的。

 

那幺,在反作弊的业务中算法和策略孰轻孰重?我觉得要分场景来考虑,打个比方,算法好比是大炮而规则策略则是一挺挺的机关枪,如果你的“战场”在一片巨大的区域,此时你面对的敌人是十万上百万数量级别,机关枪虽然好使但显然伤害有限,如果你面对的仅仅是几千个好事之徒的挑衅,机关枪就足以对付,使用大炮反而容易伤及无辜。

 

一般来说,当资损问题涌现的时候,留给工程师的时间不是很多,不管是数据分析方法、可视化分析工具,手头有趁手的工具先顶上。

 

所以,到底是算法还是策略?笔者认为有三点需要考虑:第一是业务量,如果你的业务量不是特别大,算法模型就好比大炮打蚊子;第二是可解释性,解释性较好的模型更受青睐,工程师至少知道自己的“弹药”打到了哪个地方,如果解释性不佳那幺处境就很尴尬;第三则是时效性,模型的优化迭代周期往往相对来说比较长,而资损问题却总是十万火急,如果等工程师把模型参数优化好联动工程落地,黄花菜都凉了。

 

六. 思考与补充

 

1. 需要对业务问题有深刻的理解,比如拿到一个反作弊的需求,如何找到合适的切入点是非常关键的,哪怕是很小很小,不然无从下手。比如涉及到经济相关的黑产群体,那幺首先需要思考黑产这个群体区别于其他正常人最大的特点是什幺?经济流水正常不正常?IP地址有没有“聚集性”?

 

2. 谨慎应对误伤,“宁可放过一百,不可错杀一个”,策略误杀对用户体量比较小的公司可能影响不大,对于体量较大的来说用户的不良反馈则是很影响用户体验的

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注