作者:京东零售 王晓婷
大家好,我是王晓婷,在京东零售研究广告反作弊算法设计、实现与优化,结合LLM、深度学习、强化学习赋能反作弊系统,用算法识别和打击数字广告领域的欺诈行为。本文与大家分享我从高校实验室到广告风控战场的蜕变,一场关于认知觉醒、技术探索与思维重构的旅程。
象牙塔与工业界的思维碰撞
在清华园求学期间,我开始接触数据挖掘竞赛,那时常沉浸于算法优化的世界里。和许多初学者一样,我认为模型指标就是解决问题的万能钥匙,一次一次在异常检测项目中投入大量精力,当在看到95%+准报率和低于0.35%的误报率时,那种纯粹的喜悦让我对技术产生了近乎理想化的信仰。
图1. 曾发表论文中算法取得的高准异常检测结果(误报率仅为0.35%以下)
实验室的环境确实为研究提供了理想条件:规整的数据集、清晰的问题边界、稳定的评估体系。这种纯粹的科研训练让我打下了扎实的基础,但也无形中构建了某种思维定式。
毕业后,我加入京东,投身于广告风控的实战战场,一场认知的风暴悄然来袭,在一次电商大促期间,现实给我上了深刻的一课。面对流量洪峰、以及洪峰中涌现的虚假流量,我曾引以为傲且平稳调度的模型出现了资源和作弊识别之间的掣肘,实验室里的“完美指标”、优秀的“AUC、TPR、FPR”,在海量流量面前凸显苍白,工业界需要的是能在混沌中能持续进化的解决方案。面对这样的挑战和日新月异的反作弊需求,迫使我重新审视技术应用的边界,在技术可能性、业务价值与实施成本之间寻找平衡点,这个过程至今仍在持续。
京东的“反作弊大脑”就像一位24小时在线的智能侦探,主要从多维度打击作弊行为:在用户端利用大模型识别假交易,通过智能算法自动揪出异常订单;在流量端分析每个广告点击的数百项特征,一旦发现异常行为,立刻拦截,保障广告主的每一分钱都花在真实用户身上。
技术侦探,用AI破解黑产的加密暗号
CPS模式本是为激励优质推广设计的共赢机制,在激励众多联盟伙伴积极推广的同时,也滋生了黑灰产的关注。在广告CPS中,黑灰产为了骗取平台佣金,极尽所能地在地址信息中藏匿各种暗号,这些暗号仿若隐秘的“密码”,在看似平常的地址文本中隐匿着其真实的不轨意图,损害平台利益,致使CPS佣金流失。
一种典型的作弊方式是,在用户下单时填写一个无法正常派送的“真假参半”地址。黑灰产为了实现不法目的,精心设计出各种暗号嵌入地址信息,给传统文本检测方法带来了巨大挑战。
面对这种新型作弊手段,我们持续观测数据,发现即便不断添加过滤规则,异常订单仍像地鼠般此起彼伏,基于正则表达式的策略方式无法适应日新月异的暗号变种。这让我意识到:必须突破文本表面特征,深入语义层面理解地址信息(详细细节见 文本异常检测:利用大模型侦测地址暗号 )。
在团队技术讨论中,我尝试将大模型引入检测系统。在NLP的世界里,大模型如同超级侦探通过深度的网络层和亿级参数,超前掌握语言的深层次结构和语义。在地址异常检测问题中,大模型的核心能力也能得到很好发挥。基于开源大语言模型并结合LoRA微调技术降低训练成本,让人工标注的数千条异常地址样本教会模型识别"异常模式"。
其次,在地址的生成式识别中,我基于人类反馈的强化学习框架(RHLF框架),在模型给予错误答案时及时纠偏,并会及时收集人类专家的判断,并将这些反馈纳入强化学习过程。
通过LLM+RHLF训练,模型逐渐学会了根据上下文来判断数字是否属于暗号的“生成式识别能力”。比如在类似”3栋78910单元1023室”、“3栋2单元1023室ATTTT233”这样的地址中,大模型通过生成式推理识别出"78910"、“ATTTT233”这类伪装地址,实现了异常订单地址的生成式精准抓取,这正是传统正则表达式无法企及的语义穿透力和识别能力。
经过了三个版本的迭代优化,这套系统实现了精准识别与高效运行的平衡,模型的误判率降至 ****0.3%,实现准确识别出各类显性暗号和隐蔽性暗号。这也是我第一次通过将大模型技术与CPS业务场景深度融合,构建了更加精准和高效的反作弊防护体系。
不做最炫的技术,只做最有效的方案
随着广告作弊手段的不断升级进化,反作弊技术正面临前所未有的挑战。从早期的单一IP代理,到如今的分布式攻击网络;从简单的机器群控,到精心设计的真人骗佣产业链,黑产集团正在以惊人的速度迭代他们的作弊手法。这种"道高一尺,魔高一丈"的对抗态势,让传统的基于统计规则的防御体系逐渐力不从心。就像一位经验丰富的老刑警突然面对一群装备精良的高智商罪犯,旧有的破案方法开始显得捉襟见肘。
在这样的背景下,我们尝试将大模型的上下文理解能力引入行为序列分析领域。基于LLM技术,我们构建了一套全新的反作弊系统(详细细节见 AIGC风控系统:大模型重塑广告安全新范式 )。这套系统就像一位拥有超强洞察力的侦探,通过深度解析用户行为轨迹中的矛盾点,识别隐藏在正常交互模式下的异常信号。
图2:基于LLM的流量多阶段防御
然而,面对京东主站的巨大流量,LLM虽然具备获得优秀的生成式识别能力,却很难在当前资源和耗时要求下实现实时在线推理。为了解决这个“既要精准又要快速”的难题,我采用了蒸馏技术:让大模型担任”资深教授”,小模型作为“尖子生”,通过特征层蒸馏,将大模型的“办案经验”提炼传授给小模型,经过十余个版本的迭代打磨,最终实现了精度与速度的完美平衡。
这个过程中,我深刻体会到:真正的技术创新,不是简单粗暴地把最新技术塞进业务场景,而是要在学术前沿与工业实践之间找到那个微妙的平衡点。像一位技艺精湛的工匠,既要知道最先进的工具怎么用,更要明白什么时候该用什么样的工具。这种平衡不仅需要对技术有深刻的理解,还需要对业务有深入的洞察。
在从学术研究到工业实践的跨越中,我深刻体会到广告风控的本质是一场多维度的复杂博弈。有三点核心认知与各位分享:
1. 成本意识驱动技术选型,技术人也要会算账
在公司海量流量和实战场景中,技术人不仅要关注技术本身的先进性,还需要从数据规模、计算成本和产出价值三个维度综合评估模型的应用。数据规模决定了模型的训练深度,而计算成本则直接影响到模型的实时性。最终,产出价值体现在误判率的降低和业务损失的减少上。
技术方案不是越fancy越好,现在每次做模型选型,我都会清晰评估,每提升1%准确率需要多少标注成本?降低10ms延迟能多拦截多少欺诈订单?这种量化思维帮助我们找到技术投入的黄金平衡点。
2. 持续进化知识体系,充分熟悉业务
在阅读《Attention Is All You Need》等专业文献时,我发现了Attention机制在异常检测中的巨大潜力,并成功将其应用于自部署大语言模型的优化。这一过程中,我学会了如何从大量的研究成果中筛选出对业务有价值的洞见和创新想法。这不仅需要对技术有深刻的理解,还需要具备敏锐的技术敏感度,能够快速识别和应用前沿技术。
此外,知识体系不仅包括上述的算法前沿,也包括业务洞察力的钻研能力,只有充分熟悉业务,才能快速通过算法赋能业务,为技术的迭代和创新制定坚实的基础。
3. 跨领域思考,拥有主动破局的力量
在面对黑产日新月异的攻击时,我们必须比对手进化得更快。在处理CPS佣金欺诈的场景中,我利用博弈论模型预测黑灰产可能使用的地址暗号设计模式,并提前调整检测prompt,以此来阻止他们的欺诈行为。这种方法就像是在一场智力游戏中,通过预测对手的下一步行动,提前布局,从而保持主动。
在面对黑产带来的虚假流量时,我借鉴了复杂系统理论中的耗散结构理论,应对“作弊熵增”的问题。黑产的攻击手段越来越复杂,像是一个不断变化的系统,为了应对这种变化,我在防御系统中引入了随机性和非线性反馈机制,使得我们的防御系统能够像一个活的有机体一样,具备自适应和进化的能力。
写在最后
技术人需要构建"T型能力":既要具备垂直领域的技术深度,又要拥有横向拓展的视野广度。
这种能力结构不仅能有效应对当前的业务挑战,更能为未来的技术革新提供坚实基础。我也要求自己持续精进技术深度、敏锐培养商业敏感度、始终坚守人文关怀。不断探索大模型的技术潜力,深入理解业务的核心诉求,同时确保技术应用始终符合伦理规范和用户利益。
技术人的浪漫,或许就在于这种永不停歇的攻防之舞。每当看到凌晨的A/B test中降低的后链路作弊率,看板中实现的业务目标,上线带来的一次次可观价值,都是数字时代风控守护者的微小确幸。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。