无限克朗:将无界 n 元语言模型扩展到一万亿标记

主要观点:在神经大语言模型(LLMs)时代,n 元语言模型仍具有相关性,并在文本分析和改进神经 LLMs 方面展现价值。
关键信息:通过在两个方面现代化 n 元 LM,训练于 5 万亿 tokens 数据规模,引入新的∞-gram LM 及后缀数组驱动的 infini-gram 引擎,可进行新颖文本分析,∞-gram LM 下一跳预测准确率达 47%能补充神经 LLMs 降低困惑度,分析机器生成文本时发现机器 - ∞-gram 协议水平在后缀长度上的不规则性,指出神经 LLM 预训练和 Transformer 位置嵌入的不足。
重要细节:发表于 COLM 2024 为 spotlight 论文,涉及计算与语言(cs.CL)、人工智能(cs.AI)、信息检索(cs.IR)等领域,引用为arXiv:2401.17377 [cs.CL](此版本为arXiv:2401.17377v4 [cs.CL]),通过 DataCite 发布 arXiv 发行 DOI,有提交历史,从 Jiacheng Liu 于 2024 年 1 月 30 日 v1 版本开始,到 2025 年 4 月 7 日 v4 版本。

阅读 15
0 条评论