帮助用户与 AI 实时练习口语，Speak 为何能估值 10 亿美元？丨Voice Agent 学习笔记

👋活动招募：如果你正在关注 Voice Agent 的开发和创业，欢迎线上参与本周日（15 日）的 Voice Agent 开发者分享会。

AI 语言学习公司 Speak 近日宣布完成 7800 万美元 C 轮融资，由 Accel 领投，OpenAI 创业基金、Khosla Ventures、Y Combinator 等顶级投资机构参投。此轮融资后公司估值达 10 亿美元。

Speak 核心产品是基于 AI 的英语学习应用。用户可与 AI 实时对话练习英语，系统分析回答并提供语言指导。2024 年至今用户已通过 Speak 完成超 10 亿次会话练习。

根据数据统计，今年 2 月 Speak 在 App 端全球双端月流水已经增长到了 143 万美元，而去年 11 月这个数据还只有 74 万美元。也就是说，短短三个月时间，Speak 的收入就增长了 1 倍。

如果算上网页端收入，Speak 的收入已经能够排在同类产品的第三位，仅次于 Duolingo、Babbel。

据「投资实习所」预测，目前 Speak 的 ARR 已经接近 5000 万美金，每年的增长率达到了 100%。

Speak 爆发的背后，AI 正在以超出想象的速度影响教育行业。至少从目前看，AI 很大有机会解决教育资源规模化优质供给的难题。

Speak 拥有自主研发语音识别系统。系统能够准确理解各种口音，并识别常见的语音错误。此外，Speak 还利用音素识别系统精准地分析学习者的发音问题，帮助他们提升口语水平。

近期， Speak CEO 兼联合创始人 Connor Zwick 作为嘉宾参与了播客 Unsupervised Learning 的录制。在这次对话中，他分享了创立 Speak 的经验教训，对 Speak 的护城河、音频技术和语音交互界面的理解和思考，以及对 ChatGPT 发展的观点，我们摘录了部分精彩内容，希望能给大家提供一些新思考，enjoy～

风靡全球的 AI 英语导师

The AI English Tutor Taking the World by Storm

主持人：

Jacobeffron， Redpoint 合伙人，前 Flatiron Health 首席执行官

Patrickachase，Redpoint 合伙人， LinkedIn 前 ML 工程师

嘉宾：

Connor Zwick， Speak CEO 兼联合创始人

注：为便于阅读，本文内容已作精简，并非完整对话。你可以访问原文收听完整版播客。

主持人： 欢迎 Connor Zwick 做客我们的播客！Connor 是 Speak （speak.com）的 CEO，这是一个由 OpenAI 支持的英语学习平台，最近估值 5 亿美元。（编者注：这期访谈录制于 24 年 8 月。在 12 月新一轮融资中，Speak 的估值已达 10 亿美元）自 2019 年在韩国首发以来，Speak 已发展到超过 1000 万用户，遍布 40 多个国家。今天我们将与 Connor 广泛探讨 Speak 的护城河、产品差异化、音频技术的新突破以及 Speak 发展至今的最大经验教训。

Connor 的创业历程——从抽认卡（flashcard）到 Speak

主持人： Connor，据我所知，你在高中时期就开发了一款学习用的抽认卡应用程序并出售，这算是你创业之旅的开端吧？如果现在你还在运营那个公司，结合如今的生成式 AI 技术，你会怎么做？

Connor Zwick： 这是一个很有趣的问题，之前没有人问过我。我的应用程序本质上是 iPhone 早期阶段的一个产品，其理念是将抽认卡学习数字化，用在 iPhone 上，取代实体卡片。它曾非常受欢迎，拥有数百万用户，制作了数亿个卡组，可能数十亿张卡片。我当时的想法是，如果能将这些知识点汇总成某种知识图谱，就能生成任何内容、教授任何知识，并创造出一个无所不知的导师 。现在看来，我们已经拥有了这样的技术。如果我还在开发那个应用程序，我会尝试构建一个无所不知的导师，它可以教你任何东西。从某种意义上说，我的发展轨迹有点迂回，但现在我在 Speak 也在做类似的事情。

主持人：在构建无所不知的导师的过程中，你会如何评价抽认卡数据在你所有可能拥有的数据中的地位？

Connor Zwick： 老实说，抽认卡数据可能非常有用，特别是对于学习而言，因为它的结构以学习者正在尝试学习的信息为中心。但事后看来，并且现在了解了大型语言模型的工作原理，更好的方法可能是抓取整个互联网，并尝试将其压缩成一个非常大的模型。

主持人： 你在抽认卡应用程序中可以获得非常好的用户反馈，并在此基础上进行迭代，所以我想这可以帮助你建立某种护城河。

Connor Zwick： 我很好奇像 Quizlet 这样的平台会如何发展，他们拥有非常有趣的数据集。

以「用 AI 完全取代学习过程中的人类」为目标，注重长期发展

主持人： 在深入了解 Speak 之前，我们想了解一下你在 2015 年开始的 AI 速成课程。据我所知，你旁听了伯克利的课程，并确信这些底层模型会变得更好。当时你在考虑不同的选择时，除了语言学习，你还考虑过构建哪些其他产品？

Connor Zwick： 那是在 2015 年，我们关注的是循环神经网络和卷积神经网络之类的东西，Transformer 还没有被发明出来。我们主要关注计算机视觉和语音领域。我们有很多关于计算机视觉的想法，包括一些疯狂的、甚至有点反乌托邦的想法，比如在城市车辆上使用摄像头进行自动抄牌，但我们觉得这对世界来说很糟糕，所以放弃了。我们还考虑过很多关于视觉的应用，例如为定制服装或医学影像测量人体，以及使用深度学习来更好地预测天气。但最终，我们还是被语音识别所吸引，因为我们希望构建一种感觉像是在与之建立真正关系的技术，背后有一些角色感，这正是 Speak 的机会所在。

主持人： 这很自然地引出了你现在在 Speak 所做的事情。可以为我们的听众简单介绍一下你的产品吗？

Connor Zwick： Speak 本质上是一个完整的语言学习解决方案 ，特别是学习如何说一门外语并进行真正的对话。我们 专注于口语交际，而不是语法或词汇记忆 。我们的教学法和方法论的核心是教人们高频词块，让他们反复练习直到能够自动化地使用。然后，我们让他们在模拟对话中练习，以实现与学习动机相关的真实目标。例如，如果我正在学习西班牙语是为了去墨西哥城，我会练习相关的对话。所有这些都是针对个人用户量身定制的，无论他们的动机、兴趣或水平如何，课程和所有内容都会根据他们的目标进行调整。

主持人： 从你最初的想法到现在，随着模型的不断改进，Speak 的产品功能发生了哪些变化？

Connor Zwick： 我们做的一件非常明智的事情是，我们非常注重长期发展。我们知道，这项技术还有很长的路要走，我们无法完美地预测它，但我们知道的是，在接下来的 5 到 10 年里，随着更多的数据和算力，模型会越来越好，最终在各种任务上超越人类。我们始终以「用 AI 完全取代学习过程中的人类」为目标 ，并确保我们所有的产品决策都不是为了短期利益，而是与这一长期愿景相一致。我们将其视为一系列阶梯，每隔一两年，我们就向上爬一级，产品也在不断发展，但始终保持一致和连贯的愿景。这就是我们能够在基于 AI 的学习领域取得领先地位的原因。

使模型协同工作是长期技术护城河

主持人： 许多创始人都在思考，应该在多大程度上构建一些功能来弥补当前模型的不足，或者等待模型在未来几年内变得更好。你在回顾过去的产品投入时，是如何看待这个问题的？

Connor Zwick： 如果你正在基于这些技术进行构建，你需要对它们现在和未来的工作方式以及时间框架有深入的技术直觉。你也需要能够更好地理解和阐明你正在为人们解决的问题 。即使今天的技术还没有到位，只要你一直在朝着这个方向努力，即使在几年后你不得不替换掉整个技术栈，这仍然是非常值得的。

主持人： Speak 产品的一个很酷的功能是帮助人们改善口语，包括口音。你们是如何构建这个功能的？

Connor Zwick： 对于 Speak 来说，有几个不同的技术护城河。我们有机会在短期到中期继续构建和开发自己的内部模型，用于某些特定任务。例如，我们开发了自己的内部语音识别系统，它非常擅长理解带有口音的人的讲话，并理解他们犯的特定错误。我们还拥有一个基于我们所有数据的音素识别系统，可以检测学习者在发音方面犯的错误。这些都是专业化的模型，即使我们只使用这些模型几年，它仍然对我们的业务非常有价值。

主持人： 构建这些模型需要多少投资，无论是算力、团队还是资源？

Connor Zwick： 这绝对是一项非常大的投资，但它只是我们做出的多项投资之一。构建在某项任务上处于世界领先水平的模型并不容易，你需要数据和专业知识。我们还在构建所谓的「机器学习支架」，即所有技术上非常难以实现的技术，以使这些模型能够很好地协同工作，并与我们的后端和产品协同工作 。这部分技术的复杂性和深度非常大，人们总是谈论建模，但实际上我们在这部分的投资要大得多。如果要说我们的长期技术护城河是什么，我会说这可能是更大的一个。

主持人： 你构建的主要基础设施有哪些？

Connor Zwick： 包括评估、模型链接、推理基础设施等等。我们发现，很多时候我们需要构建的东西非常专业化和独特，以至于使用现成工具没有意义，我们应该在内部构建它。所以，很大一部分工作是如何让这些模型在单个任务上表现出色，然后如何协调这些模型，以及如何持续收集新数据，何时进行微调，如何评估，以及如何围绕「如何对语言进行真正的表示」来构建更大的基础设施，以便我们可以在其上进行检索并构建知识图谱，例如了解某人在哪些方面精通，哪些方面不精通。目前，我们至少 50% 的产品开发时间都花在与这些系统相关的事情上。

主持人： 目前最痛苦的部分是什么？

Connor Zwick： 很多事情都相当愚蠢，比如我们仍在进行任何形式的提示优化，感觉有点傻，就像你在提示中写「假装你很友好」。随着模型变得更智能，这种情况肯定正在减少。

任何工具提示、用户教育或功能说明，都表明还没有做出足够好的设计

主持人： Speak 提供了一种不同的语言学习方式，用户教育是否很难？人们是否能够直观地使用它？

Connor Zwick： 我与产品和设计团队合作时始终坚持的一个原则是，任何工具提示、用户教育或功能说明，都表明我们还没有做出足够好的设计，还没有以直观的方式构建它。我们正在发明围绕音频优先体验的新界面范式。人们与 Speak 的交互方式在技术上来说是前所未有的。例如，在我们的 onboarding 流程中，当你打开应用程序时，只有一个麦克风按钮和一个简单的问题：「你为什么要学习英语？」你只需按下按钮并开始说话，但人们会疑惑：我应该说什么？我应该用什么语言？我应该回答一分钟还是五个字？他们对这种开放性感到不适应。我们希望以直观且面向未来的方式设计这种体验。

主持人： 随着时间的推移，你如何看待 UI 的发展？它是否会越来越多地转向音频，甚至变成一个你与之对话的代理？或者你认为这种 UI 始终有一席之地？

Connor Zwick： 我们经常思考的问题是如何构建混合模式， 让你可以在任何时候选择说话或打字。语音并不总是更好，但在某些时候它肯定更好，这将是一个巨大的转变，尤其是在语音到语音模型越来越好的情况下。但肯定有很多时候你更喜欢打字或点击，例如，如果你可以使用键盘，在某些情况下，它的输入速度要快得多。

语言学习课程设计与生成式 AI 的颠覆性潜力

主持人： 课程是如何设计的？你预想未来会如何发展？

Connor Zwick： 学习一门语言确实有一定的正确顺序，例如，你需要从最基本的单词和词汇开始，因为有些单词我们 80% 的时间都在使用。但在第一个同心圆的语言学习中，特定单词的顺序可以根据用户进行个性化定制。在很长一段时间内，都需要人类参与其中，以赋能课程的精心创建，至少在高层次的策略和方法论方面。但随着时间的推移，越来越多的工作将由机器学习团队而不是课程团队来完成。

主持人： 模型成本不断下降，你是否感觉受到限制？

Connor Zwick： 我们并没有感到受到很大的限制。如果我们真的感到受到限制，我们可能会选择先构建它，并在短期内承担成本，因为成本会随着时间的推移而下降。

主持人：你是如何考虑产品定价的？

Connor Zwick： 我们希望让任何想要学习英语的人都能够使用 Speak。但与此同时，这里有一个非常有趣的机会，可以对消费类产品收取更高的费用。目前有数百万人每月为线下辅导或课堂教育支付数百美元。如果我们能够构建差异化且真正有价值的产品，那么我们就可以避免价格竞争。

主持人： 你如何知道一个新模型是否真的很好？

Connor Zwick： 评估非常困难且重要。对于我们的机器学习团队来说，最重要的可能是评估，因为如果你能够提炼出一个评估，特别是对于大型语言模型经常执行的开放式任务，如果你能够提炼出完美的评估，你就基本上提炼出了你正在优化的目标问题。即使对于语音识别，也不仅仅是关于我们的单词错误率是多少，我们还关心是否捕捉到个别错误，例如，用户说了一个词，但基本上难以理解，而我们现在可以训练一个能够理解人类在交流中无法理解的单词的模型。一旦你拥有了一个良好的评估框架，它实际上就能推动大量的执行清晰度，使团队能够做出更好的决策。

主持人： 许多人认为生成式 AI 的好处主要体现在现有企业身上，例如 Duolingo。你如何看待这个问题？

Connor Zwick： 如果人工智能只是让你更好地解决相同的问题，那么它对现有企业是有帮助的，它是一种持续性技术。但有时，人工智能实际上是在解决不同的问题。例如，客户支持，如果你解决的问题是提高客户支持代理的效率，而现在有大型语言模型可以提供全自动解决方案，这将是高度颠覆性的。以语言学习为例， Duolingo 和 Speak 从根本上解决的是不同的问题。Duolingo 的大多数用户是英语母语人士，他们学习语言是为了娱乐，而 Speak 的用户是真正想要流利地说英语的人。人工智能显然对我们的用户非常有帮助。

GPT-4o 发布从根本上对 AI 语言学习产品来说是好事

主持人：如果我们拥有实时翻译和口音转换功能，是否会消除一些用户学习英语的需求？

Connor Zwick： 可能会消除一些需求。即使是世界上最好的翻译器，也会有延迟和不完美之处。更重要的是， 我们的用户从根本上追求的是人际关系，他们想要与世界各地更多的人建立联系。 即使是最好的 AI 实时翻译器也无法真正解决这个问题。

主持人： GPT-4o 发布后，Duolingo 的股价立即下跌，你如何看待这种情况？

Connor Zwick： 我不确定，市场现在感觉非常嘈杂。但 GPT-4o 的语音到语音功能对我们来说非常令人兴奋。人们会开始使用 ChatGPT 学习和练习语言，这对 AI 语言学习产品来说从根本上是件好事 ，因为人们会意识到他们可以使用 AI 学习语言，如果他们认真对待，就会寻找专业的解决方案。我们专注于拥有这个类别，就像 Airbnb 拥有房屋共享，Uber 拥有拼车一样。

音频方面可以有更好的多模态能力和多语言能力

主持人：在音频模型方面，你是否在寻找市场上出现某些特定功能，以便 Speak 可以做新的事情？

Connor Zwick： 当然。在这些大型认知模型和多模态音频方面，我们仍处于早期阶段。我们关注的主要内容是多模态音频，这是圣杯，它需要一些时间才能变得真正好，而且有很多机会在其上构建一些专业化的东西。现在的开发工具，比如说 ElevenLabs 就非常酷，它激起了一股有趣的创造性应用的热潮，他们的优势在于，作为初创公司，他们愿意比 OpenAI 这种大公司冒更多的风险。

主持人： 你希望未来（譬如 GPT-6）能够实现哪些具体功能？

Connor Zwick： 在音频方面，我们希望有更好的多模态能力和多语言能力，能够生成更接近真人导师的东西，这意味着更自然、更低延迟。它不是将你的语音的复杂性降低成一小段文本，然后将其放入大型语言模型，然后再尝试将其扩展回具有正确细微差别和音调的语音合成。更重要的是，它能够更复杂地理解你在说什么、你如何说、你是否感到自信、你的情绪以及你犯了什么错误。

个人学习或将成为人类活动发生最大变化的领域之一

主持人： 你如何看待公开演讲或其他与演讲相关的技能？你们是否考虑过围绕这些方面构建产品？

Connor Zwick： 当然。我们业务中一个非常有趣且快速增长的部分是企业版产品，三星、SK 等公司可以将其提供给所有员工。这很重要，因为它可以证明员工的技能，而且这是一项非常有价值的专业技能。我们肯定会在未来探索这方面的更多可能性。

主持人： 你如何看待这些扩展领域？

Connor Zwick： 除了语言学习之外，还有巨大的机会。我们主要关注三个领域：学校、企业和个人学习。个人学习将是人类活动发生最大变化的领域之一。我们每天做的很多事情都可以归类为学习，例如阅读书籍、收听播客、观看 YouTube 视频、阅读文章等。个人学习将和早期的互联网一样，人们没有意识到搜索引擎在未来意味着什么，而个人学习也将如此。

主持人： 如果你必须预测的话，你认为 10 到 15 年后个人学习会是什么样子？

Connor Zwick： 它将 高度个性化，就像电影《她》中的那样，它具有长期记忆，并且对你的知识、兴趣、个性以及你想要了解的内容有很好的了解，然后利用这些信息在正确的时间向你提供正确的信息。会有不同层次的平台，就像谷歌或 YouTube 这样的平台一样，它们有非常广泛的应用范围。也会有更专业的解决方案。

AI 领域的过度炒作与低估技术

主持人： 我们通常以快速问答环节结束采访。在当今的 AI 领域，你认为哪些东西被过度炒作，哪些东西被低估了？

Connor Zwick： 可能所有东西都被过度炒作了。有很多资金投入，但没有多少真正的产品与市场契合，也没有多少真正的活跃用户。但从长远来看，肯定会出现真正的大赢家。现在被低估的可能是 Transformer 之外的技术，以及对这方面的研究投入。

主持人： 在构建 AI 功能时，最大的惊喜是什么？

Connor Zwick： 我一直在努力解决的问题是，你看到一项新技术或新功能，你会非常兴奋，认为它将改变一切，但事实证明，它总是没有你想象的那么好，它不是万能药。构建真正能改变用户行为的东西真的非常困难。

主持人： 自从构建 Speak 以来，你改变了哪些想法？

Connor Zwick： 有很多小事情，我一直在不断学习。也许在一开始，我们将自己完成所有的建模工作，但现在我们意识到，实际上有些模型的构建成本非常高。

主持人： 除了你自己的领域之外，你最看好哪家 AI 初创公司？

Connor Zwick： 我没有足够好地跟踪这个领域，我非常专注于 Speak。我确实会密切关注 OpenAI Startup Fund 投资的所有初创公司，因为他们拥有非常好的交易流程，而且有很多非常有趣的东西来自那里。

主持人： 与 OpenAI 合作感觉如何？

Connor Zwick： 很棒，强烈推荐。

主持人： 人们可以在哪里了解更多关于你和你在 Speak 所做的 AI 工作的信息？

Connor Zwick： 你可以访问我们的网站 speak.com，我们正在招聘各种职位，你也可以访问 speak.com/careers 了解更多信息。

主持人： 这真是一期精彩的播客！Speak 的产品显然具有市场契合度，它是一个很好的 AI 用例，因为它可以提供以前难以实现的个性化学习体验。Connor 对护城河的理解、对音频和 UI 的思考，以及对 ChatGPT 的观点都非常 insightful。我们期待 Speak 在 AI 赋能语言学习领域取得更大的成功！

原视频：https://www.youtube.com/watch?v=nFC3asFKlH0

编译：施苏娜、傅丰元

👋活动招募：如果你正在关注 Voice Agent 的开发和创业，欢迎线上参与本周日（15 日）的 Voice Agent 开发者分享会。