主要观点:探索在高度压缩文本上训练大型语言模型(LLMs)的想法,神经文本压缩器可实现更高压缩率,若能直接训练则在训练和服务效率等方面有优势,但强压缩易产生不适合学习的不透明输出,如算术编码压缩的文本不易被 LLM 学习,为此提出等信息窗口压缩技术,可有效学习神经压缩文本并在困惑度和推理速度基准上远超字节级基线,虽在相同参数数量下困惑度不如子词分词器,但序列长度更短,减少自回归生成步骤和延迟,还对有助于学习的属性进行了分析并给出进一步改进高性能压缩分词器的具体建议。
关键信息:
- 发表于 TMLR,接受于[https://openreview.net/forum?...]
- 涉及学科:Computation and Language (cs.CL)、Machine Learning (cs.LG)
- 引用为arXiv:2404.03626 [cs.CL](或arXiv:2404.03626v3 [cs.CL]),[https://doi.org/10.48550/ArXi...]
- 提交历史:从 Brian Lester 于 2024 年 4 月 4 日 17:48:28 UTC 提交 v1,2024 年 8 月 13 日 22:01:42 UTC 提交 v2,2024 年 12 月 12 日 23:03:54 UTC 提交 v3,各版本文件大小分别为 320KB、371KB、481KB
重要细节:介绍了神经文本压缩的优势及面临的障碍,详细说明了等信息窗口压缩技术的作用和效果,对比了该方法与子词分词器在困惑度等方面的差异,以及对序列长度等方面的影响。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。