你可能应该关注分词器 - SegmentFault 思否

你可能应该关注分词器

发布于 7 月 23 日

主要观点：作者上周帮助朋友开发新应用，多数 AI 应用含检索增强生成（RAG），很多成功 AI 应用是聪明的语义搜索应用，如朋友的电商数据应用存在 RAG 工作效果不一的问题，开发者应改变思考方式，注意输入数据及 tokenization 等。
关键信息：

RAG 隐藏在多数 AI 应用中，有自己的 Wikipedia 页面，发展迅速。
很多开发者不适应从传统到统计空间的思维转变，LLM 应用需注意“输入垃圾，输出垃圾”。
介绍 tokenization 过程，不同类型 tokenizer 及常见的 BPE 和 Wordpiece 等，不同 tokenizer 对文本的处理方式不同，如 all-MiniLM-L6-v2 和 tiktoken/OpenAI 对 emoji、错拼单词等的处理。
强调 tokenizers 虽有用但只是 RAG 故事的一部分，embeddings 能更好地保留文本上下文意义，在 RAG 流程中起重要作用，如不同情况（emoji、错拼单词、日期等）下 tokenization 对 RAG 的影响。
重要细节：
作者朋友的应用处理电商数据，RAG 对某些查询效果不佳。
介绍 tokenizer 词汇表、各种 tokenizer 类型及常见实现，如 BPE 由 OpenAI 的 tiktoken 实现等。
通过代码展示不同 tokenizer 对特定文本的处理结果，如对 emoji、错拼单词、日期等的处理。
提到通过标准化格式、去除空格等清理输入文本可改善 RAG 效果，希望未来不用考虑 tokenizers。
给出相关参考文献及其他相关文章链接。

阅读 10