头图

编者按: 在人工智能发展的新阶段,我们该如何看待数据的角色与价值?当生成式 AI 让数据唾手可得,专业领域的“数据护城河”究竟该如何构建?

我们今天为大家带来的文章,作者的观点是:在生成式 AI 时代,数据从未失去其“黄金属性”,只是淘金(价值挖掘)的方式变了。

文章以大数据时代与 AI 时代的对比为切入点,指出传统的数据收集模式已被颠覆——大语言模型(LLM)不仅降低了内容生成成本,还通过高频交互创造了海量高价值对话数据。文章指出现在的核心挑战不再是数据获取本身,而是如何处理由用户高频交互产生的海量高价值对话数据。

作者 | Vikram Sreekanti and Joseph E. Gonzalez

编译 | 岳扬

回到 2010 年代,大数据曾风靡一时。正如那句名言(部分引用——此处不展示全文)所说:"everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.(人人挂在嘴边,却无人真懂其道;都以为别人在做这件事,于是纷纷声称自己也在做这件事。)"我们确信,如今从事 AI 工作的各位对这种现象完全陌生。

在那个时代,一切都是为了收集数据,然后进行分析并最终用于机器学习。大规模收集数据并利用这些数据打造更好产品体验的能力,正是谷歌和 Facebook 增长的核心动力。

来源:GPT-4o。这算不算吉卜力风格?🤔

生成式 AI 热潮的迷人之处在于,它让数据收集已不再像 10-15 年前那样具有商品属性。 如今的 LLM 只需几分钱就能生成海量看似合理的内容,而 AI 应用天生就具备创建和处理超出人类认知极限的信息能力。

现在,你只需不到一美分的成本,就能获得高度个性化的、非常详细的答案,这在过去是根本无法实现的。如果你像我们一样对人工智能情有独钟,那么可能已经对传统搜索方式(不得不翻阅文档或点击谷歌搜索结果)的局限性感到极度沮丧。人工智能这种定制化的优势显而易见:我们几乎瞬间就能提高工作效率。但更耐人寻味的是其“附加作用” —— 它所产生的数据不仅数量丰富,而且质量高、价值大,就像一个装满珍贵宝藏的宝库一样。当今的关键问题不再是数据是否可得,而在于如何处理那些必将收集到的数据。

我们在 RunLLM 的经历完美印证了这一点。我们一次又一次地发现:一旦用户意识到可以从我们这里获得高质量、可靠的答案,每周提问量就会从几十个激增至数千个。这种规模的数据量没有任何团队有时间逐条阅读,但由于 LLM 的特性,其中蕴藏着大量有价值的信息。我们分析了这些对话,以期发现文档中的问题和不足,识别产品缺陷,并收集客户在其他反馈渠道没有表达出来的功能需求。在很多方面,RunLLM 都能清晰地掌握着客户的实际使用场景和痛点 —— 但若缺乏恰当的分析方法,这些洞见就会湮没无闻。

简而言之,大语言模型(LLMs)推动了用户行为的变化(让用户更愿意提问或交互),这种高频使用生成了海量对话数据,而这些数据中天然包含了用户的真实需求和未被满足的痛点。传统场景下,人工无法处理如此庞大的数据,但 LLMs 的介入能从中挖掘出用户行为模式或市场需求的变化,且 LLMs 又拥有前所未有的高精度分析能力。不过,若是不清楚自己的分析目标,这些数据就难以发挥作用。

遗憾的是,我们并没有现成的完美原则能指引各位读者精确锁定数据中的关键信息。简而言之,这需要大量实验经验、领域专业知识和客户反馈的积累。过去两年中,我们总结出的最有效方法之一,就是倾听客户这样的反馈:"我浏览对话历史时惊讶地发现..." 或者 "这段对话很有趣,因为我不知道文档里写着..."。在多次听到类似的话之后,我们意识到这些发现(以及更多规划中的自动化功能)可以通过自动化工具实现规模化处理。

不过,我们可以分享我们在探索如何更好地利用 RunLLM 所收集数据的过程中所获得的经验。虽然我们仍处于起步阶段,但已经历了(许多)错误,并对行业趋势形成了一些假设判断。

  • 洞见很难获取(Insights are hard)。 生成优质洞见更是难上加难 —— 如果让 LLM 自行发挥,很容易产生令人困惑、毫无帮助或高度抽象的“洞见”,这些洞见实际上对任何人都没有价值。我们为此付出了惨痛教训:令人尴尬的是,我们最初为 RunLLM 尝试的主题建模(译者注:topic modeling,自动分析和归类 RunLLM 平台上的用户问题或对话,将它们分组到不同的主题类别中。)效果不佳 —— 客户反馈我们最初生成的问题类别过于模糊,根本无法实际应用。
  • 这些数据集是金矿(These datasets are gold)。 虽然目前我们对如何利用这些数据还没有最清晰的思路,但我们坚信,随着时间的推移,这些数据集将成为 AI 公司所能建立的最具价值的护城河之一。当然,OpenAI 和 Anthropic 将拥有最广的数据覆盖面 —— 它们正在收集涵盖体育、历史、医学到科学等通用对话主题的海量数据。但这些数据集明显缺乏特定领域的专业知识:如今大多数(优秀)AI 应用成功的原因,恰恰在于它们能提供通用 LLM 无法生成的内容。这一点带来两个后续影响,即以下两段:

    • 第一,通用 LLM 无法在高度专业化的任务中取得更好的成绩。 能帮助它们改进这类任务的数据,根本不会流入大模型提供商手中。我们说的“高度专业化的任务”,指的并不是编程(LLM 在这方面显然已非常擅长)—— 而是需要通用专业知识和领域经验的任务,例如为复杂产品撰写销售邮件,或提供高度复杂的技术支持。
    • 第二,AI 应用将逐步走向专业化。 通用模型提供商所缺失的那些数据,正是专业应用能够获取并用来提升自身性能的资源,这意味着能为客户提供更好的结果、更深入的洞察和创造更多的价值。随着第一代 AI 应用公司站稳脚跟,质疑者将越来越难以声称“通用 LLM 也能完成同样任务” —— 事实也将证明这绝无可能。
  • 隐藏的挑战在于数据标注(The hidden challenge is labeling)。 本文尚未讨论的一个核心问题是:如何判断哪些数据足够优质,可以作为构建 AI 应用或训练模型的可靠基础。像 Scale AI 这样的公司通过提供高质量人工标注服务实现了令人难以置信的快速发展。虽然这种模式在通用数据领域有效,但随着 AI 应用日趋专业化,这种模式将越来越难做好。与此同时,随着可用数据量激增,我们需要找到一种更具可扩展性的数据标注方式。这远不是一个已经解决的问题,但它将成为真正利用这些数据发挥作用时绝对关键的一环。

尽管数据在 2010 年代被视为关键资产,但真正能通过用户增长构建数据护城河的企业极少 —— 谷歌是一个标杆,而其他效仿者大多失败。对于 AI 应用而言,数据获取已不再是障碍 —— AI 应用的本质决定了它们会持续生成有价值的、可操作的数据。

与任何复杂问题一样,关于“该如何利用你的数据”并没有唯一的正确答案。这取决于你构建的应用类型、客户对进行这类数据分析的接受度等因素。无论在这两个问题上的答案如何,你必须关注两点: (1)如何随着时间的推移构建数据护城河,(2)如何开始尝试利用这些数据。 任何一家公司如果能解决这些问题,都将在未来几年收获丰厚回报。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

Vikram Sreekanti

Co-founder & CEO of RunLLM

Joseph E. Gonzalez

Professor at UC Berkeley and Co-Founder at Run LLM

END

本期互动内容 🍻

假设 AI 巨头明天推出你们领域的专业模型 —— 你们积累的哪类数据最可能成为对抗巨头的护城河?

本文经原作者授权,由 Baihai IDP 编译。如需转载译文,请联系获取授权。

原文链接:

https://frontierai.substack.com/p/ai-is-still-all-about-data


Baihai_IDP
153 声望458 粉丝

IDP是AI训推云平台,旨在为企业和机构提供算力资源、模型构建与模型应用于一体的平台解决方案,帮助企业高效快速构建专属AI及大模型。