炒作、希望和傲慢——这就是过去六个月的感觉,因为我们一起探索了人工智能(AI)的最新进展,在软件行业内外。
我们从演示中推断出积极因素,夸大了潜在的用途,并经常抛弃我们通常应用于软件工程的严谨性。
为了加快速度,我们模糊了通常所说的“研究”和常规开发之间的界限,经常淡化我们对商业化和生产过程中生产准备的标准。
但我想说不是吗?对严谨性、软件正确性、质量和价值的关注一直是我迄今为止职业生涯中整个 3 年所熟知的世界。
然而,我仍然无法摆脱我们把婴儿和洗澡水一起扔出去的感觉。
人工智能仍然只是软件。事实上,它是我们开发过的最复杂的软件之一——尽管主要是由训练算法而不是手工创建的——当然,它的行为是迄今为止最难推理的。
我们在最新一波人工智能浪潮中的成功可能不太取决于我们接受它的意愿——我们已经在桶装中证明了这一点——而更多地取决于我们设法应用于它的批判性和商业思维的程度。
现在是时候抛弃炒作的马车,更认真地谈论构建完整、稳定、可发布和商业价值的软件,这些软件恰好包含人工智能?
这个人工智能,而不是另一个人工智能
人工智能是一个巨大的总称,涵盖了许多学科和技术。令人困惑的是,它通常可以互换使用来表示任何或所有这些技术。
最近,大型语言模型(LLM)似乎再次引起了所有人的注意。
虽然我在这里谈论了很多关于LLM的具体观点,但我所说的很多内容也适用于将AI整合到实际软件产品中的更普遍的挑战。
我们自己最大的敌人?
除了掌握这项新技术之外,我们面临的一些最大障碍似乎源于我们自己对人工智能的误用、错误信任或误解。
在我们的兴奋中,我们似乎正在遭受集体无法有意义和批判性地谈论这个话题的痛苦。包括人工智能适合(或不适合),它可以做什么(或不能做什么),以及我们是否以与其他软件相同的方式理解它。
我承认有一些明显的例外——那些自始至终都在谈论常识的人——但他们有时似乎确实被淹没了。
至于我们其他人,也值得记住的是,人工智能有点像塔巴斯科酱;一点点大有帮助。但这是我们第一次拥有塔巴斯科州,所以我们拥有一切。即使在冰淇淋上。
**可证明的潜力,隐藏的限制
*对于所有技术、技巧甚至物理材料来说,普遍正确的是,要真正了解它们的能力,我们需要知道它们不能*做什么。
除了娱乐(人工智能给出的答案只是逗我们开心,但它们的正确性并不重要)或信息发现(人工智能充当现有数据源的更聪明的对话搜索机制)之外,我们需要更批判地看待人工智能真正能做什么。
具体来说,对于LLM来说,他们看起来的能力智能似乎削弱了我们自己谈论局限性和适用性的能力——也许只是我们的意愿。
与所有软件一样,我们必须了解限制,否则我们应该期望以后对它们感到惊讶。
**在某些地方
,**人工智能看起来像人类的能力也许是我们对它不仅仅是软件的困惑的根源。我们是否应该希望人工智能看起来像人类,只要它解决了一个有价值的问题?
我们惊叹于法学硕士消化大量培训材料的超人能力。但也许这应该是我们的第一个危险信号。
为了尝试发明类似人类的东西,我们首先赋予它一种明显非人类的能力。
说到他们的智力...让我们记住,LLM只消化了语言。
由此,他们有可能推断出主题中涉及的一些可能的语义。足以让我们向LLM询问有关正确使用椅子,为什么棒棒糖必须冷冻,蚕豆是否生长在豆荚中等问题。
但这种明显的理解来自对单词及其用法的统计研究——尽管以一种复杂得多的方式和庞大的文本语料库——而不是来自感知、智慧或对现实世界概念的本能理解,超越了代表它们的语言。
他们的反应能力将通过对培训材料的推断、减少和排列来实现。可以理解的是,这并不能代表我们可能问的所有事情,然而——与感知到自己不知道的人类不同——人工智能还不能很好地告诉我们它何时偏离了自身能力的极限。
我们也错过了关于人类获取知识方式的宝贵观点。
是的,我们读书。但我们也会在现实世界中运用和社交我们获得的知识,以弄清楚它的含义以及它指的是哪些现实世界的概念。然后我们重新阅读或阅读其他文本,以进一步巩固我们阅读的内容与其背后的(非语言)概念之间的联系。
这些现实世界的语义并不总是可以仅从语言中推断出来,因此LLM推断的概念可能只是该含义的代理。他们可能无法准确地反映现实,如果不能,那么简单地将更多的知识堆积在上面往往会加剧他们获得的伪理解。
我通过花费100 +小时在实际汽车中应用概念和理论来学习驾驶汽车......不是通过吸收 300,000 份关于驾驶的书面描述。我学到的大部分东西都来自于通过将理论应用于实际汽车的经验来推断概念......不纯粹来自培训材料。
我通过制作(经常燃烧)和品尝数百种蛋糕并获得反馈来学习烘焙蛋糕......不是在不碰鸡蛋的情况下吸收 347,000 个蛋糕食谱。
如果没有现实世界的使用,为了调整和丰富其心智模型,LLM只是消化了人类智能的起点。这似乎常常令人信服,但它最终是理论上的,有点幼稚。
我们应该谈论,而不是回避或掩盖人工智能作为软件的这些方面,以解决或改进它们。
**自然语言是一种交流形式,而不是问题领域
*我们应该在最有效的地方使用人工智能,这有时意味着不*使用它,或者只在某些地方使用它。
令我有些难过的是,人们一直试图使用LLM来推理Linux shell中想象的命令序列,物理对象排列或数学,仅举几个奇怪的例子。
这些领域超越了单纯的语言;复杂抽象的领域和它们之间的关系,其语义实际上被其他(主要是非人工智能)软件处理得很好,自然语言只是其中的间接模型。
这让我很难过,因为这感觉就像一个方形钉子被撞进一个圆孔,问题在由此产生的有点夸张的演示中经常被掩盖。
让我们记住,“LLM”中的中间“L”代表语言,这恰好是人类交流的方式,但它通常不是我们在头脑中建模和解决问题的领域。
我们不会用数学的话来解决数学问题;我们想象数字、规则和公式。或者仅仅用物理学的话来思考物理学;我们想象的是原则。
那么,为什么我们会假设人工智能可以使用在自然语言领域训练的机制来解决非语言问题呢?也许我们不应该。
LLM应该被视为与其他问题域的非常雄辩的自然语言接口,其语义最终由其他连接系统为它们建模。我们应该将它们用作与这些领域互动的沟通机制,并提出有关它们的复杂问题......但不要指望(或允许)他们推动该领域推理,除了以自然语言形式与我们交流之外。
LLM应该与已经强大地处理物理,数学,财务会计,法律等世界的系统集成。无论我们的核心问题需要什么。这可能包括其他非语言AI模型,如果AI被证明是解决问题的最强工具,或者如果不是,则完全非AI系统。
当我们使用它们来分析文档时,LLM为提取语义块或微观事实提供了很好的机制,以便在非语言领域进一步处理,从而更有效地模拟整个文档(法律,会计等)的语义。
系统每个部分的正确工具,以及每个问题域的最强选择,组合和编排。
也许不那么值得炒作。但也许更准确和可靠;那么,让我们谈谈它?
蛋糕或正确性 如果我们要在娱乐之外使用人工智能,它必须与其他软件一样保持高标准的正确**性。
**
如果Siri的答案是错误的,那不会危及生命,但我们希望在错误的答案可能会产生负面影响的地方认真使用AI。
因此,让我们要么承认我们将纯粹将人工智能用于娱乐,要么接受开发技术的任务,以证明其作为更严肃用途的软件的正确性。这包括谈论它目前缺乏准确性的地方,以及我们如何改进它。
否则,人工智能将只是娱乐、轻浮......蛋糕,在这种情况下。这似乎是一个巨大的、浪费的机会。
**解释你自己!
**除了正确性之外,我们从人工智能那里得到的答案可能会令人困惑。
与常规软件不同,我们不能轻易地指向代码或算法来解释人工智能行为;模型通常太大了。
模型给我们的答案可能是正确的,只是出乎意料。因此,我们需要某种形式的可解释性。
人工智能是一套技术和技术,而不是产品
最近大量的人工智能探索已经转向弄清楚什么是可能的。但是,在我们快速生产的过程中,我们经常忘记了使软件产品可以真正交付或使用的其他因素。
*它能可靠地站起来吗?它是否做到了我们的期望?它是否安全且已批准?它对某人有价值吗?
*
这些很难作为事后的想法来解决,通常从根本上决定了我们构建的内容,以及是否可能。它们会导致支点,但有时也会导致死胡同。
就我们可以展示的用例而言,我们可能会受到质量/安全性/可靠性的严重限制。也许我们有声誉风险或在我们的行业中受到严格监管。
人工智能不会让任何这些软件产品问题消失,反而加剧了其中一些问题。
当谈到商业化时,正如初创企业非常痛苦地知道的那样,追踪一个有价值的用例不是一件小事,也不是事后的想法......这可能和实际构建技术一样困难。
这些问题的答案需要融入迭代过程,通过这个过程,我们探索和构建包含人工智能的软件。
我怀疑许多用人工智能构建的团队都过于沉迷于新的可能性,这是可以理解的。但许多人会发现自己因为后来考虑了这些其他产品标准而陷入困境,只有一个演示或原型来展示他们的工作,也许面临一个支点——或者更糟。
我真诚地希望不是,这就是我写这篇文章的原因。
我们可以利用这一新一波人工智能提供真实、可靠、有价值的软件解决方案。
但现在是时候把炒作装箱,作为一个行业,更认真地谈论我们将如何实现这一目标。
客户会期待它。当局将授权这样做。最终,我们作为软件提供商的声誉取决于此。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。