对于 Tokenization 来说，痛苦的教训即将到来。

主要观点：探讨用通用方法替代分词以更好利用计算和数据，指出分词存在问题及潜在影响，介绍了多种无分词或更高效的文本处理架构及相关研究。
关键信息：

分词机制虽非 Transformer 必需，但实践中能在固定嵌入表中表示更多字节，理想的分词应兼顾字节压缩和模型性能。
现有分词方式存在诸多下游问题，如 Reddit 用户的专用令牌建模不佳、GPT2 中数字分词不合理等。
尝试删除分词，如 ByT5 纯字节建模在某些基准测试中表现良好，但推理时间增加；MambaByte 利用固定大小内存状态解决上下文堵塞问题。
可通过改变 Transformer 架构来去除优化子词分词的需求，如 CANINE、Charformer、Hourglass Transformers、MEGABYTE 等论文中的架构。
Byte Latent Transformer（BLT）专注于语言建模，通过动态补丁边界、局部编码器、全局 Transformer 等组件实现更高效的表示。
重要细节：
介绍了各种架构的特点，如 CANINE 利用 n-gram 哈希嵌入和局部注意力进行下采样；Charformer 学习端到端的下采样；Hourglass Transformers 采用 U-Net 类似架构并解决信息泄漏问题；MEGABYTE 采用多尺度变压器进行建模。
BLT 中补丁边界由小字节级自回归 LLM 基于熵阈值确定，局部编码器和全局 Transformer 协同工作，还引入了 n-gram 哈希嵌入等技术。
实验结果表明 BLT 在特定条件下具有较好的缩放曲线和下游任务性能，如在字符级任务上表现出色，但在一些方面仍有改进空间，如处理熵漂移等问题。
探讨了 BLT 的一些特性和影响，如熵基动态补丁的有趣特性、补丁大小与 FLOPS 的关系、n-gram 哈希嵌入的作用等，以及对未来研究的展望，如多模态 BLT 等。