语言模型只能编写勒索信

本文主要探讨了大型语言模型(LLM)输出与拼贴画的关系,以及拼贴画相关的现象学、美学、伦理和意图等方面,具体内容如下:

  • Ripped from the headlines(从头条新闻中撕下):训练语言模型的第一步是标记化,将训练数据中的文档分割成标记,模型生成文本时根据上下文采样最可能出现的标记类型,输出是各种来源文档的标记拼贴。LLM 输出的单个标记可能由其在数千或数百万文档中的统计属性引起,作者将其想象为从来源文档中撕下的标记,类似于好莱坞赎金信。
  • Something is where it wasn’t(有些东西在它不在的地方):赎金信与其他拼贴形式的区别在于其使用背后的意图。达达主义者和立体派使用拼贴来“将物质性的概念与现实、与‘东西就是’而不是‘代表’相融合”,道格拉斯·科尔尼(Douglas Kearney)在视觉诗歌中使用拼贴作为“通过强制重新语境化对有语境条件的长期、有时是讽刺性调查的一部分”。而赎金信作者使用拼贴来“擦除自我的索引标记”,以实现统一性和匿名性。LLM 输出也以类似方式使每个标记“失去授权”,其物质形式和原始上下文变得无关紧要,从而创建出统一声音的幻觉,其输出类似于赎金信,是从我们自己的写作中剪切粘贴而来。作者认为所有自动化文本创作都是一种拼贴,每个案例都是将文本单元从一个上下文插入到另一个新上下文中以产生新意义。
  • Recognizing the cut(识别裁剪):道格拉斯·科尔尼在其著作《Optic Subwoof》中讨论了拼贴的现象学,他提出拼贴的体验需要识别来自不同上下文的两个事物在新的单一上下文中的重新语境化,并且要认识到去语境化的证据,即“识别裁剪”。可见的“裁剪”使拼贴能够滋养社会关系和诗歌,使作品的文本性不集中,而是集体和关系性的。而 LLM 和赎金信都旨在隐藏“裁剪背后的手”,违背了拼贴的特点,导致文本既不是“互文的”也不是“互织的”。
  • We merely toast the bread(我们只是烤面包):科尔尼用音乐采样的类比解释了“互织的”一词,采样材料的纹理来自其物质历史,同样,语言片段的纹理也来自其自身的物质历史,包括输入字母的手指、扫描书籍的手等。安妮·阿尔伯斯(Anni Albers)认为现代材料的处理方式使我们失去了触摸材料的机会,而数字文本也有触感,互织拼贴让我们能够识别材料的物质性,大型语言模型则阻止了这一点。
  • Hoards, collections, bodies(囤积、收藏、身体):拼贴作为一种创作方法的区别特征是由现有材料制成。索菲亚·萨马塔尔(Sofia Samatar)和凯特·赞布雷诺(Kate Zambreno)在《Tone》一书中对比了两种将材料组合成拼贴的技术:收藏和囤积。计算文本拼贴的源材料通常称为“语料库”,可以大致分为收藏或囤积,大型语言模型的语料库属于囤积,创建语料库的目的是规模而不是整理,其内容往往未被阅读、未知、未归因且未披露。
  • Melancholy and mourning(忧郁与哀悼):萨马塔尔和赞布雷诺认为距离使收藏能够创造一个与劳动转化为交换价值的残酷转变相对的意义空间,但也带来了情感上的纠葛。在计算文本拼贴中,当拼贴者承认语料库的物质历史和与它们的关系时,就会出现“距离”,大型语言模型的创建者试图隐藏这种距离,但距离和忧郁仍然存在。
  • Let us love the distance(让我们热爱距离):1957 年的一篇《纽约时报》文章提到一起所谓的绑架案,发现赎金信部分由从女演员壁炉中的报纸上剪下的标题组成,这表明去授权的文本片段仍保留其物质历史。作者认为通过努力可以揭示生成式 AI 输出的物质历史,我们应该热爱这种距离,在计算文本拼贴中,作者更喜欢使用自己能够了解和理解的语料库,以面对人际、历史和上下文的风险。作者制作诗歌是为了寻找新的语言排列,使用计算工具并使“裁剪”可见,以创造有意义的作品。

总之,作者认为大型语言模型作为计算文本拼贴的一种方法是不够的,还有其他潜在的替代方法,作者希望通过对拼贴的探讨,为计算诗歌提供新的思路和方法。

阅读 37
0 条评论