作者:吕强

1、简介 

1.1 背景简介

目的:通过分享,让大家了解算法,以及了解各岗位和算法的关系。在AI时代,和各位同事更高效地合作。 
各岗位和算法的关系:All in AI新含义

    所有岗位(All)  已在(in)  AI(AI赋能业务关键环节)  

1.2 算法简介

典型应用场景:短视频/信息流、电商、搜索、社交网络/社区、大模型等

典型技术方向:搜/推/广,自然语言/图像/大模型等

典型岗位:NLP算法,推荐算法,广告算法,图像算法,深度学习,机器学习,大模型等

算法相关名词:机器学习ML、深度学习DL、人工智能AI等等 以下,机器学习ML,人工智能AI,算法,不做特别区分。   

2、从人类学习,理解机器学习 

 “学习,是指通过阅读、听讲、理解、思考、研究、实践等途径获得知识的过程。” 

人类学习:老师教学生掌握知识。
机器学习:算法工程师教机器掌握规律/知识。 

2.1 监督学习:老师教,学生学

技术原理:在确定目标下,算法通过数据+模型让机器根据目标,学习规律。
典型案例:分类任务(包括转化率预估,文本分类,图像分类等)
应用场景:搜索/推荐/广告/风控/NLP/图像等。 

人类学习:老师教,学生学,目标为是否通过考试。 
image.png

  参考:《刻意练习:如何从新手到大师》(安德斯·艾利克森,罗伯特·普尔)
  参考:《Deep Interest Network for Click-Through Rate Prediction》 
  https://arxiv.org/pdf/1706.06978.pdf 

问题2.1.1:

人类存在舒适区,大部分不愿主动学习。
机器的舒适区:信息茧房问题。 

2.2 探索/强化学习Explore:新的知识

技术原理:在已有知识基础上(Exploit),探索学习新知识(Explore)。
应用场景:搜索推荐广告的新内容/新用户。
典型技术:UCB、Q-learning、GAN等探索/强化学习。

问题2.2.1:

应用不广泛 

原因:人类学习新知识,耗费能量,记住困难,尤其是信息过载时。新知识不经常用,大多存于工作记忆(短期记忆)中,容易忘记。
工作记忆(短期记忆):短期背诵记忆;只能存少量内容,难以长期记住。
长期记忆:基于理解后记忆; 
image.png

 参考:《津巴多普通心理学》菲利普·津巴多  

机器学习学习新知识:机器能记住新知识,但理解困难
不能理解原因:样本少,过拟合,泛化差(训练数据表现好,测试集表现差) 
人类/机器模型的工作记忆/长期记忆对比 

工作记忆-输入参数长期记忆-神经元/激活函数输出参数神经网络结构
人类7个项目1000亿级image.png
Wide&Deep(参数服务PS) 推荐/广告10万-1000亿级100万级image.png

问题2.2.3

如何加强学生/机器的理解(长期记忆)能力?  

2.3 生成学习:“复述是最好的学习方法”

技术原理:通过大量数据和大模型理解和生成内容。
应用场景:大语言模型LLM/图像/音乐/视频的预训练和生成。 

人类学习:复述,以教促学。 

为什么复述是最好的学习方法? 科学学习理论
生成学习帮助长期记忆中强化连接,形成知识
image.png

参考:《科学学习:斯坦福黄金学习法则》丹尼尔L.斯瓦茨等  

GPT3通过生成式学习方法+增加长期记忆容量,证明了LLM的能力,能举一反三(ICL/prompt)
G = Generative

人类和生成模型对比 

表列 A工作记忆-输入参数长期记忆-神经元/激活函数输出参数测试集合
人类7个项目1000亿级通用
GPT1context 5121亿级NLP任务:SNLI简单推判断;RACE问答;相似度/分类
GPT2context 1K10亿级NLP任务:CoQA会话问答, CBT-CN阅读理解
GPT3context 2K1000亿级下游NLP任务不需要微调,只需要提供几条示例(prompt)
 参考:《LLM Evaluation 如何评估一个大模型?》
 https://zhuanlan.zhihu.com/p/644373658
 https://arxiv.org/pdf/2307.03109.pdf 

思考: 为什么本次分享采用人类学习进行对比说明?  

问题2.3.1:

即使GPT3具备和人类一样的神经元和学习方法,但距离人类智能还很远。  

2.4 RLHF:基于人类反馈奖励的强化学习

RLHF:Reinforcement Learning with Human Feedback
技术原理:基于不断的反馈奖励机制,让机器可以持续学习。 

人类学习:社会每时每刻都在给人以反馈;即使独处,个人反思也会给自己反馈;
其他学习方法:学完有限语料就结束学习; 

chatGPT通过 生成式学习 + 增加长期记忆容量 + RLHF 实现智能涌现
智能涌现的表现:评估大模型方法,有NLP语言类任务测试数据,转变为人类考试数据的逻辑类测试。 

什么是RLHF?

chatGPT(instructGPT)基于人类反馈(RM)的强化学习(PPO)
image.png

参考《Training language models to follow instructions with human feedback》2022
https://arxiv.org/abs/2203.02155 

简单理解RLHF:
人类工作:工作 -> 获得用户/市场反馈 -> 晋升新工作内容 -> 获得用户/市场反馈...从基于用户反馈的产品迭代理解RLHF
image.png
 

3、技术驱动:算法站在全行业巨人肩上 

巨人是谁:全球一流院校机构研究成果,全球顶尖公司的工程实践。

如何站在巨人肩上:论文(研究成果/工程实践)、行业会议/分享(工程实践) 
为什么是论文:AI时代,技术发展非常快,论文是新技术的源头。 

校招:比赛/论文/大厂实习
社招:技术广度和深度(新近的技术了解),项目经验(新近的工程实践) 

3.1 每年有多少新的研究/工程论文 

顶会论文:每年每个小方向新论文数【百级】
image.png

3.2 顶会NIPS

NIPS:Neural Information Processing Systems
特点:是神经计算方面最好的会议之一 

NIPS代表1:transformer,imagenet,GPT3
image.png

      
 参考:https://dl.acm.org/conference/nips(统计截止2018) 

image.png

  
参考:https://www.aminer.cn/conf/5ea1e340edb6e7d53c011a4c/Statistics?t=b&sortKey=n_citation(论文不全) 

3.3 顶会KDD

KDD: Knowledge Discovery and Data Mining
特点:有针对应用方向赛道Applied data science track(ADS) 。 

代表:MMOE(moe系列支撑起2020前后搜推广行业的大部分KPI),
DIN(工业界序列推荐的经典架构)
image.png

 参考:https://dl.acm.org/conference/kdd(统计截止2018)  

image.png

   参考:https://www.aminer.cn/conf/5ea1b22bedb6e7d53c00c41b/Statistics(统计不全)  

问题3.3.1:

为什么论文都公开?
原因:
(1)AI技术迭代太快,很可能被别人抢先;
(2)见3.4  

3.4 技术和数据的2:8原则

算法工程师 = data scientist, data(80%) + science(20%)
数据data占比80%,有多重理解
(1)从经验来讲,算法优化收益的80%来源于数据;
(2)算法80%的精力花在对数据,以及对数据来源业务的理解、分析、处理。   

4、数据驱动:算法扎根于产研运业务 

机器学习:输入数据,输出规律/知识。
数据直接决定了机器学习的天花板。"garbage in, garbage out" 

数据来源于产研运业务全链路:从产品功能到业务模式,从用户前端操作到后端逻辑处理,从大数据分析到算法策略,所有环节都影响着数据生产。 

数据的评估维度:数量、质量、丰富度、准确性等。 

接下来,介绍案例,说明不同角色在数据链路中的关键价值。 

4.1 产品:帮助建设高质量数据资产

案例(产品提升算法效果):为什么网易云音乐的歌曲推荐比腾讯音乐好?答案:
image.png

歌单:多首同一个主题相关的歌曲,组成的合集。
step1 UGC生产歌单:引入用户专业知识,相关歌曲关联
step2 歌单推荐:平台筛选优质歌单关联数据,进行分发
step3 歌单生态:分发歌单,优质歌单用户获得社交反馈,激励生产更多UGC歌单 
step4 歌单数据输出:输出到每日推荐、私人FM等推荐场景,提升用户体验

 参考:https://zhuanlan.zhihu.com/p/660047938 

总结:一个优秀的产品设计,积累的优质数据资产,让算法起点在行业“遥遥领先”。 
问题4.1.1: 为什么更多用户选择腾讯音乐?
答案:见4.2 

4.2 运营/业务:算法局限,运营来补

数据包括用户行为数据,还有内容数据。 

内容为王的时代,算法存在局限性。 

算法的推荐系统逻辑:每条内容给多少流量,是基于内容的历史数据表现
预估转化率存在马太效应:内容历史播放量越大,推荐系统倾向于给更多流量。

     “凡有的,还要加给他,叫他多余;没有的,连他所有的也要夺过来” -《圣经·新约·马太福音》

马太效应的问题:新发布内容没有历史统计数据,推荐系统推不准,初期转化率低,PK不过老内容,后续推不出来,影响推荐系统长期效果

问题举例:把内容比作人的成长。不对儿童保护,小学生和大学生一起PK,只考虑当下,不考虑未来。 

案例(运营引导算法方向):抖音内容运营机制,流量池机制,内容阶梯成长分流机制。目标:长期收益最大化,持续足量的内容(人才)供给。 

核心逻辑:业务清楚知道算法局限性,算法具备业务长期视角。
抖音不是算法最厉害,而是整体认知意识领先行业。 
image.png

 参考:https://zhuanlan.zhihu.com/p/503300309 

4.3 前端:用户行为数据的放大镜

数据量:最大量的用户行为数据(曝光、下拉、时长)需要前端去捕捉。前端埋点的数据量比后端数据高几个数量级。
数据丰富度:帮助精准区分用户的不同需求。直接影响算法建模的质量。 

前端影响算法建模内容:用户消费时长统计依赖前端技术,时长已经成为行业关键指标,也是算法建模的目标之一。
比如,点击都是用户的正向反馈吗?

点击+低播放时长 = 负向体验。 

4.4 交互UI: 直接影响数据分布(算法方向)

转化漏斗:曝光->点击->播放->互动->关注->复访-> LTV
现状:几十万上百万工程师在做点击转化预估(曝光->点击)。 

“三次无效点击原则:用户会逃离任何在三次点击内无法完成某项任务的网站。”参考:《屏幕上的聪明决策》 什洛莫·贝纳兹等 

案例(交互改变算法方向):抖音的沉浸流,缩短转化链路,提升数据质量,大幅提升推荐效率。
播放->互动->关注->复访  

案例4.4.2:

拼多多去掉购物车,购物车到购买转化直接提升到100%。 

4.5 后端:影响数据效果/公平性

数据分布中的偏见:种族、性别等
案例(后端影响算法效果):后端系统中的系统偏见。热门内容优先对待,比如缓存。从而导致热门内容体验好,数据指标好,持续获得更多的曝光。通过建立数据意识,避免数据偏见,可以提升数据质量。 

4.6 测试:从功能评估到综合体验评估

案例(测试支持算法评估):很多产品逐渐从功能性向内容体验类倾斜。测试通过独立评估体验性数据指标,帮助独立评估算法策略效果,高效迭代,同时保证上线质量
重要性:A/B实验结果是用户在测试,是有损的,测试提前介入可以控制A/B用户体验损失。  

4.7 大数据:

重要性:算法基于数据,重要性不言而喻。 
案例(大数据&算法合作):抖音等内容平台通过大数据产品,发现细分方向需求趋势;算法将细分方向分发给能力匹配的创作者,精准高效生产-供给内容,形成闭环
比如巨量算数、婵妈妈,飞瓜等数据平台帮助内容生产者,快速洞察趋势,精准生产内容。 ... 

4.8 小结

从内容数据生产链路,到用户行为数据生产链路,所有角色都发挥着重要作用。
算法的输入是行为数据、内容数据,整个链路所有角色的合力,才能发挥AI的价值。   

5、理解数据,理解用户 

    “未来30年数据将取代石油,成最强大能源” 

在信息过载的时代,怎么理解数据?  

从目标理解:数据反映了用户需求。数据的价值就是挖掘用户需求,满足用户需求的能力。 
从价值理解:劳动价值理论 -> 需求价值理论劳动/技术本身不创造价值,只有在满足需求,形成消费时,才具备价值 

“消费乃是一切经济活动之唯一目的、唯一对象” -《就业利息和货币通论》约翰·梅纳德·凯恩斯

参考:https://zhuanlan.zhihu.com/p/625712819  

因此,理解数据,就是理解用户。


AI及LNMPRG研究
7.2k 声望12.8k 粉丝

一群热爱代码的人 研究Nginx PHP Redis Memcache Beanstalk 等源码 以及一群热爱前端的人