头图

编者按:在大语言模型(LLMs)相关技术高速发展的今天,哪些基于 LLMs 的产品真正值得我们投入精力开发?如何从用户体验和市场接受度的角度评估这些产品的潜力?

今天为大家分享的这篇文章,作者的核心观点是:优秀的产品应该将 GenAI 无缝集成到现有工作流中,引入 AI 不仅要能为用户提供高价值、变革性的体验,同时还需兼顾用户的使用习惯,最好不要增加用户的学习成本。

正如本文所强调的,在追求技术创新的同时,我们不应忘记用户的实际需求和使用习惯。本文所介绍的内容为我们对 GenAI 产品的思考提供了新的视角,提醒我们在产品的设计、开发过程中应始终将用户体验置于核心位置。

我们相信,随着 AI 技术的不断进步,未来会涌现出更多创新应用场景。但无论技术如何发展,以用户为中心的产品理念始终是成功的关键,也应当是产品的初心。

作者 | Alexey Evdokimov

编译 | 岳扬

目录

01 What You Will Find Below

02 质量标准高或质量监控成本高的应用可能会失败 🚫

03 专业型 Copilots 正成为市场宠儿✅

04 仅仅能略微带来便利的 LLMs App 是行不通的🚫

05 将 LLMs “巧妙”整合入原有工作流的 Apps 更受市场欢迎 ✅

06 集成 GenAI 的产品更适合于 B2B2C 而非 B2C

07 Summary

最近我一直在思考,在我脑海中涌现出的众多生成式 AI 产品构想中,哪些是值得我们深入探索的。为此,我初步设计了多个不同版本的 prompts ,向 ChatGPT 询问有关当前 AI 产品(涵盖消费者端 B2C 及企业端 B2B)成功与失败的根本原因。

这是我从 GPT-4o 获得的模型响应[1](点击题注链接可以查看)。我认为在多个版本 prompts 的回答中,这一个最为出色。如果 GPT-4o 的回答已经让你足够满意了,那么你可以随时选择跳过后续内容。;-)

查看完整答案:https://chatgpt.com/share/a08c7c15-726b-4dd8-b96b-395b80a96edd

然而,这种肤浅的回答并未触及生成式 AI 的独到之处。原因很简单:这是一个新兴领域,GPT-4o 训练数据中关于 GenAI 产品成功要素的信息尚不充分。

在这种情况下,可能不如直接使用 Google 搜索来得快捷和全面。以下是我认为最具吸引力的深度内容:

  • Aniket Deosthali 所著的《Winning the AI Products Arms Race》[2]中,作者不仅深入分析了基于 GPT 的产品,也从不同角度对传统 AI 产品进行了全面、深入地探讨。他基于 “Consideration x Context” 框架提出的 “AI Survival Curve”,尤为引人注目。
  • 哪些 AI 产品创意(AI product ideas)值得我们去探索呢?[3]本文着重探讨了如何根据技术可行性选择可能成功的 GenAI 产品创意。我特别喜欢他们对 AI performance 的明确定义,这也是他们分析的基础。高性能(High performance)无疑是通往成功的关键。

这两篇文章都强调,数据质量不佳(即缺乏充分、优质的上下文信息)是导致众多 AI 项目“折戟沉沙”的关键原因之一。 毫无疑问,“向大语言模型输入的数据越优质,模型产生的响应结果就越出色”。然而,在实际应用中,许多目标任务的处理与解决并不依赖于海量数据;很多时候,仅需一条简洁的提示词和一份精炼的文档,生成式 AI 就能高效、高质量地完成工作

与传统的人工智能相比,GPT 系列模型的预训练特性,无疑是一种巨大的优势 —— 传统人工智能往往受限于必须对每类具体任务进行训练。我们需要充分利用这一优势。

01 What You Will Find Below

我提供了另外一种不同的视角,探讨哪些基于 LLM 技术的产品具有开发价值。

  • 本文的预设条件为:如前文所述,许多产品构想即便在缺乏大量优质数据的情况下也能付诸实践。
  • 此外,我没有将那些可能制约产品质量的技术约束🚫纳入考量范围。

本文的重点集中于用户的行为模式(user behavior) 之上。在分析过程中,本文将着重于挖掘 LLM 产品的独特之处,而非泛泛讨论创新产品普遍遵循的规律。

“哪些生成式人工智能(GenAI)产品值得我们投入精力开发?”这个问题非常宽泛,即便我们将那些使用了其他技术但没有使用大语言模型(LLMs)的产品,如语音转文本(TTS)、文本转语音(STT)、diffusion transformers 等排除在外也是如此。因此,

  • 我决定将这个问题的解答分为两部分。第一部分聚焦于用户对产品的态度,即市场接受度,相关内容在本文中详述。后续将要发表的第二部分内容,会深入探讨针对产品创意的商业分析(business analysis of product ideas),特别是竞争态势方面(competition aspects)。
  • 在撰写这两篇文章的过程中,我仅着眼于两种商业模式:直接面向消费者(B2C)与通过企业间接服务消费者(B2B2C) 。这也就意味着,我并未涉及企业间交易(B2B)的产品或是企业内部的研发成果;因为这些产品往往更多地受制于企业自身的需求和政策导向,而非终端用户的实际需求,这类产品能否在市场上立足,取决于另一套迥异的标准体系。

本文将探讨基于 LLMs 的软件产品(面向终端用户的 APP)的一系列相关议题:

  • GenAI App 的成功程度,与用户能接受的错误范围有何种联系?
  • 专业的 AI copilot 需要哪些独特功能,才能在与 ChatGPT 这类热门 AI chatbots 的竞争中脱颖而出?
  • 我们怎样才能消除用户面对新技术时的习惯性抵触心理,促使他们主动拥抱变化?
  • 一个由 LLMs 驱动的“全面(whole)”产品应具备哪些要素?
  • 除了产品本身的完整性(completeness),GenAI 产品要实现市场突破,还需考虑哪些重要因素?

接下来,我们将剖析两类可能遭遇滑铁卢**的应用🚫,以及两类有望经受市场考验的应用✅。

02 质量标准高或质量监控成本高的应用可能会失败 🚫

LLM 的推理结果不可预测且难以评估:

点击查看完整版PPT

即便产品初期受到用户好评,但不同用户群体或同一用户在不同情况下,对产品的评价可能天差地别。更重要的是,随着知识库的不断扩充,原先表现良好的场景也可能出现效果下滑的情况。即使切换到所谓“更高质量”的 LLMs,也可能因此出现性能下降。

因此,持续监控基于 LLMs 的应用的性能质量,是确保其成功的关键所在。

若一款产品无法让人可以有效监督其性能表现,而仅凭模型的自我评估又不能够避免出错,那这款产品很可能难以在市场上立足。 (实际上,很难找到能放手让 LLMs 去评估自己输出质量的实际案例。)

归根结底,这种情况取决于用户对产品出现错误的容忍程度:

  • 当 LLM App 的输出质量远超用户所能容忍的程度时,使用模型本身或另一套模型来进行评估,或是干脆放弃对其进行监控,都是可行策略。
  • 在那些对错误零容忍的领域(比如出现1%的错误率都不可被接受的产品) ,开发基于 LLMs 的应用似乎没有太多意义。然而,即便考虑到修复 LLM 出现的错误所需的人力成本,只要产品能够盈利,那么使用 LLM 依然是个较为划算的选择。
  • 还有一种折中的情况:用户对产品错误的容忍度与当前产品的实际表现大致相等。 这时,虽然仍需人工干预,但出手干预的应当是终端用户,而非产品所在公司的员工。下一章节将专门探讨这一主题。

03 专业型 Copilots 正成为市场宠儿✅

大语言模型缺乏系统性思维能力,在全面把握复杂上下文时存在局限。它们往往在处理罕见、超出数据训练范畴或系统设定之外的情况时捉襟见肘。因此,LLMs 的输出结果需要进行人工复查(参照前文讨论过的模型评估机制)。理想情况下,产品使用者应担当起人工评估者(human evaluators)。

不过,要让这一模式奏效,用户对输出质量的预期必须合理,不能抱有不切实际的期望。终端用户应当把 AI 视为助理伙伴(assistant),而非必须无条件提供优质服务的外部供应商(external provider)。

基于这些考虑,市场开始拥抱 “AI copilots” 这一理念。尽管有些人可能倾向于将 “AI copilots” 简单等同于一般的 “AI assistants” ,但在我看来[4], “AI copilots” 实则是 “AI assistants” 家族中的进阶成员。它们的作用远不止于提供信息(inform)和给出建议(advise),还能在其设计的产品中,独立完成一系列复杂操作。

大多数 “AI copilots” 的功能都非常丰富,它们大多嵌入于多功能产品(multi-purpose products)中,与其说是一款单一的应用程序(applications),这些产品更像是一个开放平台(platforms)。举个例子🙋‍♀️🌰,Github 是一款所有程序员的“平台(platform)”,而 Microsoft Office 365 则是服务于所有办公室职员(office workers)及知识工作者(knowledge professionals)的“平台”,两者均配备了 “AI copilots”。同时,诸如 Windows 和 iOS 这样的操作系统也在尝试引入“AI copilots” 。

AI Copilot. Image created by the author with Recraft.ai

尽管 “AI copilots” 市场看似已经非常饱和,但我坚信仍有足够的空间让创新产品崭露头角。不过,初创公司所开发的 “AI copilots” 不应盲目追求与 GitHub Copilot X 或 Shopify Sidekick 等行业巨头一样以多功能为目标。

真正的机遇在那些专注于特定垂直领域的 “AI copilots”,它们能够比任何通用型(general-purpose) “AI assistant” 更高效地为专业人士提供帮助。 虽然实现这一目标绝非易事,但值得一试。

试想一下,专门为培训讲师(如培训专家(experts)和课程开发者(course creators))打造的 “AI copilots”。这样的工具应比 ChatGPT 更胜一筹,不仅能够提升课程质量,还能大幅减少所需的工作量:

  • 应当体现培训讲师(trainer)独有的专业素养(expertise)与教学风格(teaching style)。
  • 当其目标不再局限于课程策划(session planning),而是涵盖学习资料(learning materials)与学生作业(student assignments)时,“AI copilots” 应具备生成多种形式的内容的能力,而不仅仅限于文本形式。
  • 为了实现工作流程的真正简化,终端用户不应局限于复制粘贴 “AI copilots” 的输出结果。反之,“AI copilots” 需与 LMS(Learning Management Systems)、即时通讯软件(messengers)或其他课程发布工具(course delivery tools)无缝对接,提供“一站式”的解决方案。

若想在竞争中胜过那些在自家已有平台内嵌入通用 AI 助手(universal AI assistants)的科技巨头,专有领域的 “AI copilots” 必须为其目标用户群体提供价值更高的体验。其具备的优势(benefits)不应只是微小的、逐步的增加(incremental),而应该是具有重大影响、能够带来根本性变化的(transformative)。

下文将阐述为什么会有这样的观点。

04 仅仅能略微带来便利的 LLMs App 是行不通的🚫

尽管基于生成式 AI 的 App 声称能带来耳目一新的用户体验,但是我们却不能忽视一个事实:多数用户往往不愿改变自己的使用习惯,无论这种抗拒是有意识的还是来自于潜意识。 在我看来,“conversational UX design” 所带来的好处被过分吹捧,而依托大语言模型实现的“个性化(personalization)”与“贴合用户需求(adaptation to user needs)”,其表现可能让人难以预料,有时甚至还会让人感到厌烦。

想象一下💭在目前众多由 LLMs 驱动的应用场景中,用户需要输入文字或语音指令(text or voice commands),进而可能经常陷入漫长的对话交流。这种基于聊天的交互模式(chat-based interface)虽然很新颖,但对于那些习惯于动动鼠标🖱点击操作的普通用户而言,无疑构成了一定的学习门槛。 语音交互(voice chat)看似弥补了部分不足,但在不少用户看来,它甚至比文本聊天更加难以掌握。

还存在另一个障碍,要获取优质的大语言模型输出结果,往往需要多次迭代优化。这并不纯粹归咎于模型本身的不完善,而是由于用户在逐步细化自身需求时,自然而然地产生了迭代需求。 为了理解为什么会出现这个问题,不妨比较一下传统工作流与新兴工作流的差异:

  • 传统模式(没有 AI assistant 协助):终端用户能够立刻将灵感或新要求纳入工作草稿(draft)中,因为对作者来说,定位及编辑特定部分的操作相当便捷。
  • 新型的“人机协作”模式:每出现一个新需求(new requirement),都会触发整个工作草稿的全面更新,且改动部分随机分布、不可预知,不易追踪。这种转变可能会令用户感到不适,因为相比用户亲自动手创作,这样会被迫投入更多精力在阅读与校对之上。毫无疑问,对多数写作者而言,创造的乐趣远胜过阅读的体验。

面对这些难题,新兴的 AI 应用要想赢得大众的认可,就必须展现出令人难以抗拒的优势。

如果只是节省了10%-30% 的工作时间,那远远不足以吸引用户去尝试使用该应用。这是因为人们内心深处对于打破固有习惯有着天然的抵触。要克服这种惰性,这款应用带来的效率提升必须是颠覆性的 —— 不应只是“小打小闹”般的工作效率提升,而需要成倍地减少工作量。

更重要的是,最好不能仅仅是单纯地节省时间。试想一下,如果有一款应用能够帮助用户蜕变成他们心中向往的模样。比如,借助基于 AI 技术的应用,就能让一个演讲能力平平之人,一跃成为具有深远影响力的思想领袖。

05 将 LLMs “巧妙”整合入原有工作流的 Apps 更受市场欢迎 ✅

真正成功、有效的 Apps 能够将大语言模型与其它功能完美结合,形成一个“完整的产品(whole product)”。该理念最早由杰弗里 · 摩尔(Geoffrey Moore)在其著作《Crossing the Chasm》[5]中提出并广为流传。他认为唯有那些能够从头到尾(end-to-end)全流程满足用户需求的产品,才能快速赢得广大主流用户(mainstream users (the majority))的青睐。而那些仅仅提供核心功能的产品,亦即所谓的“通用产品(generic products)”,往往只能吸引那些喜欢自行搭建解决方案的创新者(innovators)和“早鸟”(early adopters)。

Image source: thinkinsights.net

打造智能化的“whole product”(译者注:根据前文所述,是指将大语言模型与其它功能完美结合的产品)往往需要巧妙地采取 ‘smart’ (智能)方法来整合 AI 技术。这不仅意味着要在单一应用中无缝融合 LLMs 的各项功能,还应在不同应用间建立数据传输通道。

以个人知识管理(PKM)工具为例,如 Obsidian,这些往往都是专为“老鸟”设计的 “core products” (译者注:如前文所述,仅仅提供核心功能的产品,亦即所谓的“通用产品(generic products)”),这类产品用户热衷于自己动手,通过各种插件(plugins)和集成其他组件、系统(integrations)来个性化满足自己的使用需求。

然而,个人知识管理系统(PKM)的潜力远不止于此,这类产品的用户是那些需要经常创作新内容的内容创作者和博主,即便灵感枯竭,他们也必须保持持续的内容产出。针对这一用户群体,PKM 若能整合 AI-driven 的功能,便能蜕变为一个 “whole product”。想象一下💭,一款智能系统(intelligent system)能够深入分析个人知识库(personal knowledge base),主动为用户提供文章、视频或社交媒体帖子等内容的创作灵感或内容主题建议。更进一步,这款工具还能与我们协同工作,共同打磨出高质量的产品。

当然,有些用户也可以通过将自身知识库与诸如 TextCortex 和 NotebookLM 等通用 AI 解决方案集成,实现类似的效果。不过,这种自己动手的方案(DIY approach)在功能完整性上还是有所欠缺。

这类解决方案往往看起来有些麻烦:一方面,我们得在一个地方向知识库中添加“知识(knowledge)”;另一方面,却要在另一个平台上进行分析、挖掘有价值的知识。

此外,这类配置操作往往需要依赖文本搜索(text queries) —— 这无疑是一项既费时又高度消耗脑力的操作。反之,一个精心设计的 PKM 应用,只需用户轻点按钮、遵循预定计划或是依据特定事件就能激发高价值内容的挖掘。这种用户体验设计(UX design)大大减少了用户的脑力消耗。

因此,在技术产品从对新技术持开放态度,愿意承担风险的“早鸟”向主流市场用户(mainstream market)推广的过程中,产品的简单、易用和功能完整程度是首要考虑因素。将 LLMs 的能力融入到用户已熟知并信赖的产品之中,就能够满足这些条件。

然而,并非所有的集成解决方案(integrated solution)都行得通。在我看来,最成功的“smart” AI 解决方案,都是那些能够完美融入现有工作流的方案,终端用户无需任何多余操作就能享受 AI 带来的便利。也就是说,无需增加新按钮,也不必新增选项栏 —— 集成 AI 只是为了增强用户的现有体验。

  1. 以某一个教育应用(educational app)为例,用户仅需点击熟悉的“Next(下一步)”按钮,就可以继续学习下一个话题或完成下一项作业。这一操作的底层逻辑,可能会触发 AI 生成的个性化学习内容或学习作业,而这一切都在悄无声息中进行。学生们可能根本不会注意到这一点,但他们很可能对学习内容能如此贴合个人需求而感到满意。
  2. 相比之下,在目前市场上普遍存在这种 AI 集成模式:在应用界面的一角突然跳出一个独立的聊天机器人(chat assistant),与主要应用功能几乎无关。这种功能看似有用,但并不能构成竞争优势,换句话说,它难以成为影响用户坚定选择使用某款产品的关键因素。
  3. 再举一个例子,从用户接受程度来看,这种方案仍然不够理想,相较于前两种情况,这种解决方案比第二种好,但还是比第一种差。通常,基于 AI 的功能是通过在用户熟悉的菜单栏中加入新选项的方式集成到现有应用的。这绝非最佳解决方案,因为用户往往对陌生选项持谨慎态度,因此这类解决方案的普及率依然停留在 20%-40% 之间。

第三种解决方案示例:Notion 菜单栏中的 AI actions 选项

06 集成 GenAI 的产品更适合于 B2B2C 而非 B2C

现在我们来看看另一种情况,即没有现有的盈利产品作为基础,而是从零开始,试图通过整合 LLM 技术来提升产品能力。依我之见,如果想要推出一款以 LLMs 为核心功能的全新 B2C 产品,将会面临重重困难。下面,我们将探讨其中的两大核心问题:

  • 数据安全与用户隐私问题。 为了保证产品的好用、易用,LLM 技术需要高质量数据的支持。然而,在 B2C 领域,这却成了一个棘手难题。直接使用用户数据可能会引发许多消费者对个人隐私的担忧😔。另一种途径是依赖开发人员提供的数据,但这需要构建一个庞大而全面的数据集,才能满足各类用户的多元化需求。无疑会大幅增加产品开发费用,并使产品开发过程变得更为复杂。
  • 大型科技巨头处于难以超越的领先地位。 诸如 Meta、Google 和 Apple 这样的科技巨擘,在 B2C 市场上占据着几乎不可撼动的地位。在某些 LLM 能够赋能的产品领域,即便这些巨头比初创企业晚一步进入某些细分市场,凭借其数以亿计的现有用户基础,依然能享有巨大的“先发”优势。此外,它们的产品正是用户日常数字化生活的中心地带,这种用户规模上的优势,是任何初创公司即便砸下重金进行市场营销也难以企及的。

在经过精心设计的 B2B2C 应用中,上述挑战被大大缓解,这类应用的目标是助力其他企业(特别是中小型企业(SMBs))迅速为 B2C 市场开发出真正有价值的 end-to-end 产品:

  • 数据安全与用户隐私问题的解决。在 B2B2C 模式中,优质数据来源不再是单个的 B2C 模式的消费者,而是转向了 B2B 模式的客户群体。 这些企业出于自身利益考量,有更大的动力去妥善处理用户隐私问题,这一点我们将在后续进一步探讨。
  • 利用现有客户群的竞争策略。在理想状态下,每个 B2B 模式的客户都已拥有自己稳定的客户群体。此时,融入 LLMs 技术的 B2B2C 产品便能够帮助这些 B2B 模式的客户,或是增加从其客户身上获得的收益,或是减少服务交付过程中的成本开销

不过,基于私有部署 LLMs 的 B2B 产品同样能有效规避上述这些问题。不过,关于 B2B 解决方案的详细讨论,不在本文讨论范围之内。

此外,一款 B2C 产品要想取得成功,就必须拥有庞大的用户群体,因此不应该要求用户具备特定的技能资质或很高的产品使用积极性。 这恰恰与基于 LLMs 的应用程序的典型弱点相悖,这类应用往往会给用户带来不熟悉且复杂的体验(如第 4 节所述)。

当用户具有相对较高的产品使用积极性时,上述弱点就更容易被克服。但在 B2C 领域,这种情况通常只适用于约 10%-20% 的用户 —— 那些创新者(innovators)和“早鸟”(early adopters),这使得该类产品在市场大受欢迎显得不太可能(在第 5 节对此情况进行了探讨)。

相反,在 B2B2C 模式中,更多潜在用户表现出高度的积极性,因为对他们而言,这不仅关乎如何“增效”,还关系到产品的利润增长。

顺便说一下,虽然 B2B 模式的客户可以直接与 LLMs 进行交互,但他们服务的终端用户仍然可以享受和以前一样流畅自然的产品使用体验,无需直接面对复杂、上手麻烦的 LLMs。

07 Summary

集成 LLMs 技术的产品可能在输出质量(output quality)上面临重重挑战,且无可避免地会在质量评估上遭遇困境(可回顾本文第 2 节介绍的内容)。能否有效应对或规避这些问题,与用户的错误容忍度(error tolerance)密切相关。特别是 “AI copilots” 的使用者往往具有较高的错误容忍度,因此针对这类系统进行大量研发投资是完全合理的(内容详情请参见本文第 3 节)。

对于那些已确立市场地位的产品开发者而言,通过整合 LLMs 技术来增强产品价值,同时兼顾用户的使用习惯,是一种更为明智的选择。 这种策略有助于产品集成 AI 后顺利“跨越鸿沟(cross the chasm)”,并赢得更多用户的青睐(若想深入了解这一概念,请阅读本文第 5 节)。

然而,遵循用户已经习惯的交互模式、布局、流程等传统产品设计理念并非始终可行,对于创新产品(novel products)而言,这也未必是硬性要求。 由 LLM 深度赋能(LLM-powered)的应用程序,很可能会使用“对话式的产品界面”,要求用户改变他们的使用习惯。在这种情况下:

  • 人工智能应当为用户提供颠覆性的价值(transformative benefits)(详见本文第 4 节),或者
  • 产品应遵循 B2B 或 B2B2C 的商业模式,而非传统的 B2C 模式。在此种情况下,B2B 模式的客户将转变成为 GenAI 功能的核心用户,因为他们有动力提升团队的工作效率,进一步提高盈利能力(详情请阅读本文第 6 节)。

诚然,要在短短一篇文章里全面介绍所有影响产品成败的关键因素,即便是限定在某一技术领域(LLM)和两种商业模式(B2C与B2B2C)的范围内,也是难以做到的。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!


Alexey Evdokimov

AI pragmatist with background in Research (PhD), Education, Software Development and Product Management. I use GenAI for refining my pieces, not for ideation ;)

https://medium.com/@alexeye42

END

参考资料

[1]https://chatgpt.com/share/a08c7c15-726b-4dd8-b96b-395b80a96edd

[2]https://www.reforge.com/blog/ai-products-arms-race#the-ai-survival-curve-where-lucrative-opportunities-live-93801b235d73

[3]https://www.visma.com/blog/which-ai-product-ideas-are-worth-exploring/

[4]https://www.blobr.io/post/ai-chat-ai-assistant-ai-copilot-ai-sidekick-guide-ai-definition

[5]https://www.blinkist.com/en/books/crossing-the-chasm-en

原文链接:

https://ai.gopubby.com/what-llm-powered-products-are-worth-developing-ux-and-adoption-perspectives-d9efcf444d50


Baihai_IDP
134 声望444 粉丝

IDP是AI训推云平台,旨在为企业和机构提供算力资源、模型构建与模型应用于一体的平台解决方案,帮助企业高效快速构建专属AI及大模型。