一位业余开发者海克·格里戈里安(Hayk Grigorian)为了好玩而构建能说维多利亚时代英语的 AI 语言模型,本周得到了一个意外的历史课。他的最新创作提到了 1834 年伦敦的真实抗议,而他之前并不知道这些事件的存在,直到在谷歌上搜索。
格里戈里安是宾夕法尼亚州穆伦贝格学院的计算机科学学生,他一直在开发名为 TimeCapsuleLLM 的小型 AI 语言模型,完全基于 1800 - 1875 年伦敦的文本进行训练,旨在捕捉 AI 模型输出中的真实维多利亚时代声音,其输出文本充满圣经引用和适合该时期的修辞过度。
他的项目加入了一个不断增长的研究领域,探索所谓的“历史大语言模型(HLLMs)”,类似的项目还有 MonadGPT 和 XunziALLM。这些模型让研究人员有机会与过去时代的语言模式和思维过程互动。
在一个简单测试中,TimeCapsuleLLM 生成了关于 1834 年伦敦抗议的内容,格里戈里安进行事实核查后发现与历史事实相符,1834 年英国因《济贫法修正案》有重大内乱,帕尔默斯顿在这一时期担任英国外交大臣。
一方面,AI 语言模型能合成信息是已知的,但这个由一人训练的业余模型能从数千份文档中的零散参考中重建一个连贯的历史时刻,将特定年份与实际事件和人物联系起来,这很有趣。格里戈里安未刻意在模型中训练 1834 年抗议的相关内容,而是从 6.25GB 的维多利亚时代写作中组合出这些联系。
格里戈里安通过“选择性时间训练(STT)”,用 7000 多本 1800 - 1875 年伦敦出版的书籍、法律文件和报纸从头训练 AI 模型,版本 0 训练数据仅 187MB 时生成维多利亚风格的胡言乱语,0.5 版虽语法正确但会虚构事实,当前 7 亿参数版本已开始生成历史参考。随着训练数据规模的扩大,模型的虚构内容减少,开始记住数据集中的内容。
对于历史学家和数字人文研究人员,这种实验可能有用,能创建互动的时期语言模型,虽不一定事实严谨但对研究古代语法或词汇有启发。格里戈里安还表示想尝试其他城市的模型,并在 GitHub 上公开了代码、模型权重和工作文档。在经常出现 AI 虚构的时代,这个偶然说出过去真相的模型令人耳目一新,可称为“事实意外”。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。