作者:吕强
1、简介
1.1 背景简介
目的:通过分享,让大家了解算法,以及了解各岗位和算法的关系。在AI时代,和各位同事更高效地合作。
各岗位和算法的关系:All in AI新含义
所有岗位(All) 已在(in) AI(AI赋能业务关键环节)
1.2 算法简介
典型应用场景:短视频/信息流、电商、搜索、社交网络/社区、大模型等
典型技术方向:搜/推/广,自然语言/图像/大模型等
典型岗位:NLP算法,推荐算法,广告算法,图像算法,深度学习,机器学习,大模型等
算法相关名词:机器学习ML、深度学习DL、人工智能AI等等 以下,机器学习ML,人工智能AI,算法,不做特别区分。
2、从人类学习,理解机器学习
“学习,是指通过阅读、听讲、理解、思考、研究、实践等途径获得知识的过程。”
人类学习:老师教学生掌握知识。
机器学习:算法工程师教机器掌握规律/知识。
2.1 监督学习:老师教,学生学
技术原理:在确定目标下,算法通过数据+模型让机器根据目标,学习规律。
典型案例:分类任务(包括转化率预估,文本分类,图像分类等)
应用场景:搜索/推荐/广告/风控/NLP/图像等。
人类学习:老师教,学生学,目标为是否通过考试。
参考:《刻意练习:如何从新手到大师》(安德斯·艾利克森,罗伯特·普尔)
参考:《Deep Interest Network for Click-Through Rate Prediction》
https://arxiv.org/pdf/1706.06978.pdf
问题2.1.1:
人类存在舒适区,大部分不愿主动学习。
机器的舒适区:信息茧房问题。
2.2 探索/强化学习Explore:新的知识
技术原理:在已有知识基础上(Exploit),探索学习新知识(Explore)。
应用场景:搜索推荐广告的新内容/新用户。
典型技术:UCB、Q-learning、GAN等探索/强化学习。
问题2.2.1:
应用不广泛
原因:人类学习新知识,耗费能量,记住困难,尤其是信息过载时。新知识不经常用,大多存于工作记忆(短期记忆)中,容易忘记。
工作记忆(短期记忆):短期背诵记忆;只能存少量内容,难以长期记住。
长期记忆:基于理解后记忆;
参考:《津巴多普通心理学》菲利普·津巴多
机器学习学习新知识:机器能记住新知识,但理解困难
不能理解原因:样本少,过拟合,泛化差(训练数据表现好,测试集表现差)
人类/机器模型的工作记忆/长期记忆对比
工作记忆-输入参数 | 长期记忆-神经元/激活函数输出参数 | 神经网络结构 | |
---|---|---|---|
人类 | 7个项目 | 1000亿级 | |
Wide&Deep(参数服务PS) 推荐/广告 | 10万-1000亿级 | 100万级 |
问题2.2.3
如何加强学生/机器的理解(长期记忆)能力?
2.3 生成学习:“复述是最好的学习方法”
技术原理:通过大量数据和大模型理解和生成内容。
应用场景:大语言模型LLM/图像/音乐/视频的预训练和生成。
人类学习:复述,以教促学。
为什么复述是最好的学习方法? 科学学习理论
生成学习帮助长期记忆中强化连接,形成知识
参考:《科学学习:斯坦福黄金学习法则》丹尼尔L.斯瓦茨等
GPT3通过生成式学习方法+增加长期记忆容量,证明了LLM的能力,能举一反三(ICL/prompt)。
G = Generative
人类和生成模型对比
表列 A | 工作记忆-输入参数 | 长期记忆-神经元/激活函数输出参数 | 测试集合 |
---|---|---|---|
人类 | 7个项目 | 1000亿级 | 通用 |
GPT1 | context 512 | 1亿级 | NLP任务:SNLI简单推判断;RACE问答;相似度/分类 |
GPT2 | context 1K | 10亿级 | NLP任务:CoQA会话问答, CBT-CN阅读理解 |
GPT3 | context 2K | 1000亿级 | 下游NLP任务不需要微调,只需要提供几条示例(prompt) |
参考:《LLM Evaluation 如何评估一个大模型?》
https://zhuanlan.zhihu.com/p/644373658
https://arxiv.org/pdf/2307.03109.pdf
思考: 为什么本次分享采用人类学习进行对比说明?
问题2.3.1:
即使GPT3具备和人类一样的神经元和学习方法,但距离人类智能还很远。
2.4 RLHF:基于人类反馈奖励的强化学习
RLHF:Reinforcement Learning with Human Feedback
技术原理:基于不断的反馈奖励机制,让机器可以持续学习。
人类学习:社会每时每刻都在给人以反馈;即使独处,个人反思也会给自己反馈;
其他学习方法:学完有限语料就结束学习;
chatGPT通过 生成式学习 + 增加长期记忆容量 + RLHF 实现智能涌现。
智能涌现的表现:评估大模型方法,有NLP语言类任务测试数据,转变为人类考试数据的逻辑类测试。
什么是RLHF?
chatGPT(instructGPT)基于人类反馈(RM)的强化学习(PPO)
参考《Training language models to follow instructions with human feedback》2022
https://arxiv.org/abs/2203.02155
简单理解RLHF:
人类工作:工作 -> 获得用户/市场反馈 -> 晋升新工作内容 -> 获得用户/市场反馈...从基于用户反馈的产品迭代理解RLHF
3、技术驱动:算法站在全行业巨人肩上
巨人是谁:全球一流院校机构研究成果,全球顶尖公司的工程实践。
如何站在巨人肩上:论文(研究成果/工程实践)、行业会议/分享(工程实践)
为什么是论文:AI时代,技术发展非常快,论文是新技术的源头。
校招:比赛/论文/大厂实习
社招:技术广度和深度(新近的技术了解),项目经验(新近的工程实践)
3.1 每年有多少新的研究/工程论文
顶会论文:每年每个小方向新论文数【百级】
3.2 顶会NIPS
NIPS:Neural Information Processing Systems
特点:是神经计算方面最好的会议之一
NIPS代表1:transformer,imagenet,GPT3
参考:https://dl.acm.org/conference/nips(统计截止2018)
参考:https://www.aminer.cn/conf/5ea1e340edb6e7d53c011a4c/Statistics?t=b&sortKey=n_citation(论文不全)
3.3 顶会KDD
KDD: Knowledge Discovery and Data Mining
特点:有针对应用方向赛道Applied data science track(ADS) 。
代表:MMOE(moe系列支撑起2020前后搜推广行业的大部分KPI),
DIN(工业界序列推荐的经典架构)
参考:https://dl.acm.org/conference/kdd(统计截止2018)
参考:https://www.aminer.cn/conf/5ea1b22bedb6e7d53c00c41b/Statistics(统计不全)
问题3.3.1:
为什么论文都公开?
原因:
(1)AI技术迭代太快,很可能被别人抢先;
(2)见3.4
3.4 技术和数据的2:8原则
算法工程师 = data scientist, data(80%) + science(20%)
数据data占比80%,有多重理解:
(1)从经验来讲,算法优化收益的80%来源于数据;
(2)算法80%的精力花在对数据,以及对数据来源业务的理解、分析、处理。
4、数据驱动:算法扎根于产研运业务
机器学习:输入数据,输出规律/知识。
数据直接决定了机器学习的天花板。"garbage in, garbage out"
数据来源于产研运业务全链路:从产品功能到业务模式,从用户前端操作到后端逻辑处理,从大数据分析到算法策略,所有环节都影响着数据生产。
数据的评估维度:数量、质量、丰富度、准确性等。
接下来,介绍案例,说明不同角色在数据链路中的关键价值。
4.1 产品:帮助建设高质量数据资产
案例(产品提升算法效果):为什么网易云音乐的歌曲推荐比腾讯音乐好?答案:
歌单:多首同一个主题相关的歌曲,组成的合集。
step1 UGC生产歌单:引入用户专业知识,相关歌曲关联
step2 歌单推荐:平台筛选优质歌单关联数据,进行分发
step3 歌单生态:分发歌单,优质歌单用户获得社交反馈,激励生产更多UGC歌单
step4 歌单数据输出:输出到每日推荐、私人FM等推荐场景,提升用户体验
参考:https://zhuanlan.zhihu.com/p/660047938
总结:一个优秀的产品设计,积累的优质数据资产,让算法起点在行业“遥遥领先”。
问题4.1.1: 为什么更多用户选择腾讯音乐?
答案:见4.2
4.2 运营/业务:算法局限,运营来补
数据包括用户行为数据,还有内容数据。
内容为王的时代,算法存在局限性。
算法的推荐系统逻辑:每条内容给多少流量,是基于内容的历史数据表现。
预估转化率存在马太效应:内容历史播放量越大,推荐系统倾向于给更多流量。
“凡有的,还要加给他,叫他多余;没有的,连他所有的也要夺过来” -《圣经·新约·马太福音》
马太效应的问题:新发布内容没有历史统计数据,推荐系统推不准,初期转化率低,PK不过老内容,后续推不出来,影响推荐系统长期效果
问题举例:把内容比作人的成长。不对儿童保护,小学生和大学生一起PK,只考虑当下,不考虑未来。
案例(运营引导算法方向):抖音内容运营机制,流量池机制,内容阶梯成长分流机制。目标:长期收益最大化,持续足量的内容(人才)供给。
核心逻辑:业务清楚知道算法局限性,算法具备业务长期视角。
抖音不是算法最厉害,而是整体认知意识领先行业。
参考:https://zhuanlan.zhihu.com/p/503300309
4.3 前端:用户行为数据的放大镜
数据量:最大量的用户行为数据(曝光、下拉、时长)需要前端去捕捉。前端埋点的数据量比后端数据高几个数量级。
数据丰富度:帮助精准区分用户的不同需求。直接影响算法建模的质量。
前端影响算法建模内容:用户消费时长统计依赖前端技术,时长已经成为行业关键指标,也是算法建模的目标之一。
比如,点击都是用户的正向反馈吗?
点击+低播放时长 = 负向体验。
4.4 交互UI: 直接影响数据分布(算法方向)
转化漏斗:曝光->点击->播放->互动->关注->复访-> LTV
现状:几十万上百万工程师在做点击转化预估(曝光->点击)。
“三次无效点击原则:用户会逃离任何在三次点击内无法完成某项任务的网站。”参考:《屏幕上的聪明决策》 什洛莫·贝纳兹等
案例(交互改变算法方向):抖音的沉浸流,缩短转化链路,提升数据质量,大幅提升推荐效率。
播放->互动->关注->复访
案例4.4.2:
拼多多去掉购物车,购物车到购买转化直接提升到100%。
4.5 后端:影响数据效果/公平性
数据分布中的偏见:种族、性别等
案例(后端影响算法效果):后端系统中的系统偏见。热门内容优先对待,比如缓存。从而导致热门内容体验好,数据指标好,持续获得更多的曝光。通过建立数据意识,避免数据偏见,可以提升数据质量。
4.6 测试:从功能评估到综合体验评估
案例(测试支持算法评估):很多产品逐渐从功能性向内容体验类倾斜。测试通过独立评估体验性数据指标,帮助独立评估算法策略效果,高效迭代,同时保证上线质量。
重要性:A/B实验结果是用户在测试,是有损的,测试提前介入可以控制A/B用户体验损失。
4.7 大数据:
重要性:算法基于数据,重要性不言而喻。
案例(大数据&算法合作):抖音等内容平台通过大数据产品,发现细分方向需求趋势;算法将细分方向分发给能力匹配的创作者,精准高效生产-供给内容,形成闭环。
比如巨量算数、婵妈妈,飞瓜等数据平台帮助内容生产者,快速洞察趋势,精准生产内容。 ...
4.8 小结
从内容数据生产链路,到用户行为数据生产链路,所有角色都发挥着重要作用。
算法的输入是行为数据、内容数据,整个链路所有角色的合力,才能发挥AI的价值。
5、理解数据,理解用户
“未来30年数据将取代石油,成最强大能源”
在信息过载的时代,怎么理解数据?
从目标理解:数据反映了用户需求。数据的价值就是挖掘用户需求,满足用户需求的能力。
从价值理解:劳动价值理论 -> 需求价值理论劳动/技术本身不创造价值,只有在满足需求,形成消费时,才具备价值
“消费乃是一切经济活动之唯一目的、唯一对象” -《就业利息和货币通论》约翰·梅纳德·凯恩斯
参考:https://zhuanlan.zhihu.com/p/625712819
因此,理解数据,就是理解用户。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。