【AI主题】走进算法All in AI

作者：吕强

1、简介

1.1 背景简介

目的：通过分享，让大家了解算法，以及了解各岗位和算法的关系。在AI时代，和各位同事更高效地合作。
各岗位和算法的关系：All in AI新含义

    所有岗位(All)  已在(in)  AI(AI赋能业务关键环节)

1.2 算法简介

典型应用场景：短视频/信息流、电商、搜索、社交网络/社区、大模型等

典型技术方向：搜/推/广，自然语言/图像/大模型等

典型岗位：NLP算法，推荐算法，广告算法，图像算法，深度学习，机器学习，大模型等

算法相关名词：机器学习ML、深度学习DL、人工智能AI等等以下，机器学习ML，人工智能AI，算法，不做特别区分。

2、从人类学习，理解机器学习

 “学习，是指通过阅读、听讲、理解、思考、研究、实践等途径获得知识的过程。”

人类学习：老师教学生掌握知识。
机器学习：算法工程师教机器掌握规律/知识。

2.1 监督学习：老师教，学生学

技术原理：在确定目标下，算法通过数据+模型让机器根据目标，学习规律。
典型案例：分类任务（包括转化率预估，文本分类，图像分类等）
应用场景：搜索/推荐/广告/风控/NLP/图像等。

人类学习：老师教，学生学，目标为是否通过考试。

  参考：《刻意练习：如何从新手到大师》（安德斯·艾利克森，罗伯特·普尔）
  参考：《Deep Interest Network for Click-Through Rate Prediction》 
  https://arxiv.org/pdf/1706.06978.pdf

问题2.1.1：

人类存在舒适区，大部分不愿主动学习。
机器的舒适区：信息茧房问题。

2.2 探索/强化学习Explore：新的知识

技术原理：在已有知识基础上（Exploit），探索学习新知识（Explore）。
应用场景：搜索推荐广告的新内容/新用户。
典型技术：UCB、Q-learning、GAN等探索/强化学习。

问题2.2.1：

应用不广泛

原因：人类学习新知识，耗费能量，记住困难，尤其是信息过载时。新知识不经常用，大多存于工作记忆（短期记忆）中，容易忘记。
工作记忆(短期记忆)：短期背诵记忆；只能存少量内容，难以长期记住。
长期记忆：基于理解后记忆；

 参考：《津巴多普通心理学》菲利普·津巴多

机器学习学习新知识：机器能记住新知识，但理解困难
不能理解原因：样本少，过拟合，泛化差（训练数据表现好，测试集表现差）
人类/机器模型的工作记忆/长期记忆对比

	工作记忆-输入参数	长期记忆-神经元/激活函数输出参数	神经网络结构
人类	7个项目	1000亿级
Wide&Deep（参数服务PS）推荐/广告	10万-1000亿级	100万级

问题2.2.3

如何加强学生/机器的理解（长期记忆）能力？

2.3 生成学习：“复述是最好的学习方法”

技术原理：通过大量数据和大模型理解和生成内容。
应用场景：大语言模型LLM/图像/音乐/视频的预训练和生成。

人类学习：复述，以教促学。

为什么复述是最好的学习方法？科学学习理论
生成学习帮助长期记忆中强化连接，形成知识

参考：《科学学习：斯坦福黄金学习法则》丹尼尔L.斯瓦茨等

GPT3通过生成式学习方法+增加长期记忆容量，证明了LLM的能力，能举一反三(ICL/prompt)。
G = Generative

人类和生成模型对比

表列 A	工作记忆-输入参数	长期记忆-神经元/激活函数输出参数	测试集合
人类	7个项目	1000亿级	通用
GPT1	context 512	1亿级	NLP任务：SNLI简单推判断；RACE问答；相似度/分类
GPT2	context 1K	10亿级	NLP任务：CoQA会话问答, CBT-CN阅读理解
GPT3	context 2K	1000亿级	下游NLP任务不需要微调，只需要提供几条示例（prompt）

 参考：《LLM Evaluation 如何评估一个大模型？》
 https://zhuanlan.zhihu.com/p/644373658
 https://arxiv.org/pdf/2307.03109.pdf

思考：为什么本次分享采用人类学习进行对比说明？

问题2.3.1：

即使GPT3具备和人类一样的神经元和学习方法，但距离人类智能还很远。

2.4 RLHF：基于人类反馈奖励的强化学习

RLHF：Reinforcement Learning with Human Feedback
技术原理：基于不断的反馈奖励机制，让机器可以持续学习。

人类学习：社会每时每刻都在给人以反馈；即使独处，个人反思也会给自己反馈；
其他学习方法：学完有限语料就结束学习；

chatGPT通过生成式学习 + 增加长期记忆容量 + RLHF 实现智能涌现。
智能涌现的表现：评估大模型方法，有NLP语言类任务测试数据，转变为人类考试数据的逻辑类测试。

什么是RLHF？

chatGPT(instructGPT)基于人类反馈（RM）的强化学习（PPO）

参考《Training language models to follow instructions with human feedback》2022
https://arxiv.org/abs/2203.02155

简单理解RLHF：
人类工作：工作 -> 获得用户/市场反馈 -> 晋升新工作内容 -> 获得用户/市场反馈...从基于用户反馈的产品迭代理解RLHF

3、技术驱动：算法站在全行业巨人肩上

巨人是谁：全球一流院校机构研究成果，全球顶尖公司的工程实践。

如何站在巨人肩上：论文（研究成果/工程实践）、行业会议/分享（工程实践）
为什么是论文：AI时代，技术发展非常快，论文是新技术的源头。

校招：比赛/论文/大厂实习
社招：技术广度和深度（新近的技术了解），项目经验（新近的工程实践）

3.1 每年有多少新的研究/工程论文

顶会论文：每年每个小方向新论文数【百级】

3.2 顶会NIPS

NIPS：Neural Information Processing Systems
特点：是神经计算方面最好的会议之一

NIPS代表1：transformer，imagenet，GPT3

      
 参考：https://dl.acm.org/conference/nips（统计截止2018）

  
参考：https://www.aminer.cn/conf/5ea1e340edb6e7d53c011a4c/Statistics?t=b&sortKey=n_citation（论文不全）

3.3 顶会KDD

KDD: Knowledge Discovery and Data Mining
特点：有针对应用方向赛道Applied data science track(ADS) 。

代表：MMOE（moe系列支撑起2020前后搜推广行业的大部分KPI），
DIN（工业界序列推荐的经典架构）

 参考：https://dl.acm.org/conference/kdd（统计截止2018）

   参考：https://www.aminer.cn/conf/5ea1b22bedb6e7d53c00c41b/Statistics（统计不全）

问题3.3.1：

为什么论文都公开？
原因：
（1）AI技术迭代太快，很可能被别人抢先；
（2）见3.4

3.4 技术和数据的2：8原则

算法工程师 = data scientist, data(80%) + science(20%)
数据data占比80%，有多重理解：
（1）从经验来讲，算法优化收益的80%来源于数据；
（2）算法80%的精力花在对数据，以及对数据来源业务的理解、分析、处理。

4、数据驱动：算法扎根于产研运业务

机器学习：输入数据，输出规律/知识。
数据直接决定了机器学习的天花板。"garbage in, garbage out"

数据来源于产研运业务全链路：从产品功能到业务模式，从用户前端操作到后端逻辑处理，从大数据分析到算法策略，所有环节都影响着数据生产。

数据的评估维度：数量、质量、丰富度、准确性等。

接下来，介绍案例，说明不同角色在数据链路中的关键价值。

4.1 产品：帮助建设高质量数据资产

案例（产品提升算法效果）：为什么网易云音乐的歌曲推荐比腾讯音乐好？答案：

歌单：多首同一个主题相关的歌曲，组成的合集。
step1 UGC生产歌单：引入用户专业知识，相关歌曲关联
step2 歌单推荐：平台筛选优质歌单关联数据，进行分发
step3 歌单生态：分发歌单，优质歌单用户获得社交反馈，激励生产更多UGC歌单
step4 歌单数据输出：输出到每日推荐、私人FM等推荐场景，提升用户体验

 参考：https://zhuanlan.zhihu.com/p/660047938

总结：一个优秀的产品设计，积累的优质数据资产，让算法起点在行业“遥遥领先”。
问题4.1.1: 为什么更多用户选择腾讯音乐？
答案：见4.2

4.2 运营/业务：算法局限，运营来补

数据包括用户行为数据，还有内容数据。

内容为王的时代，算法存在局限性。

算法的推荐系统逻辑：每条内容给多少流量，是基于内容的历史数据表现。
预估转化率存在马太效应：内容历史播放量越大，推荐系统倾向于给更多流量。

     “凡有的，还要加给他，叫他多余；没有的，连他所有的也要夺过来” -《圣经·新约·马太福音》

马太效应的问题：新发布内容没有历史统计数据，推荐系统推不准，初期转化率低，PK不过老内容，后续推不出来，影响推荐系统长期效果

问题举例：把内容比作人的成长。不对儿童保护，小学生和大学生一起PK，只考虑当下，不考虑未来。

案例（运营引导算法方向）：抖音内容运营机制，流量池机制，内容阶梯成长分流机制。目标：长期收益最大化，持续足量的内容（人才）供给。

核心逻辑：业务清楚知道算法局限性，算法具备业务长期视角。
抖音不是算法最厉害，而是整体认知意识领先行业。

 参考：https://zhuanlan.zhihu.com/p/503300309

4.3 前端：用户行为数据的放大镜

数据量：最大量的用户行为数据（曝光、下拉、时长）需要前端去捕捉。前端埋点的数据量比后端数据高几个数量级。
数据丰富度：帮助精准区分用户的不同需求。直接影响算法建模的质量。

前端影响算法建模内容：用户消费时长统计依赖前端技术，时长已经成为行业关键指标，也是算法建模的目标之一。
比如，点击都是用户的正向反馈吗？

点击+低播放时长 = 负向体验。

4.4 交互UI: 直接影响数据分布（算法方向）

转化漏斗：曝光->点击->播放->互动->关注->复访-> LTV
现状：几十万上百万工程师在做点击转化预估（曝光->点击）。

“三次无效点击原则：用户会逃离任何在三次点击内无法完成某项任务的网站。”参考：《屏幕上的聪明决策》什洛莫·贝纳兹等

案例（交互改变算法方向）：抖音的沉浸流，缩短转化链路，提升数据质量，大幅提升推荐效率。
播放->互动->关注->复访

案例4.4.2：

拼多多去掉购物车，购物车到购买转化直接提升到100%。

4.5 后端：影响数据效果/公平性

数据分布中的偏见：种族、性别等
案例（后端影响算法效果）：后端系统中的系统偏见。热门内容优先对待，比如缓存。从而导致热门内容体验好，数据指标好，持续获得更多的曝光。通过建立数据意识，避免数据偏见，可以提升数据质量。

4.6 测试：从功能评估到综合体验评估

案例（测试支持算法评估）：很多产品逐渐从功能性向内容体验类倾斜。测试通过独立评估体验性数据指标，帮助独立评估算法策略效果，高效迭代，同时保证上线质量。
重要性：A/B实验结果是用户在测试，是有损的，测试提前介入可以控制A/B用户体验损失。

4.7 大数据：

重要性：算法基于数据，重要性不言而喻。
案例（大数据&算法合作）：抖音等内容平台通过大数据产品，发现细分方向需求趋势；算法将细分方向分发给能力匹配的创作者，精准高效生产-供给内容，形成闭环。
比如巨量算数、婵妈妈，飞瓜等数据平台帮助内容生产者，快速洞察趋势，精准生产内容。 ...

4.8 小结

从内容数据生产链路，到用户行为数据生产链路，所有角色都发挥着重要作用。
算法的输入是行为数据、内容数据，整个链路所有角色的合力，才能发挥AI的价值。

5、理解数据，理解用户

    “未来30年数据将取代石油,成最强大能源”

在信息过载的时代，怎么理解数据？

从目标理解：数据反映了用户需求。数据的价值就是挖掘用户需求，满足用户需求的能力。
从价值理解：劳动价值理论 -> 需求价值理论劳动/技术本身不创造价值，只有在满足需求，形成消费时，才具备价值

“消费乃是一切经济活动之唯一目的、唯一对象” -《就业利息和货币通论》约翰·梅纳德·凯恩斯

参考：https://zhuanlan.zhihu.com/p/625712819

因此，理解数据，就是理解用户。