主要观点:作者上周帮助朋友开发新应用,多数 AI 应用含检索增强生成(RAG),很多成功 AI 应用是聪明的语义搜索应用,如朋友的电商数据应用存在 RAG 工作效果不一的问题,开发者应改变思考方式,注意输入数据及 tokenization 等。
关键信息:
- RAG 隐藏在多数 AI 应用中,有自己的 Wikipedia 页面,发展迅速。
- 很多开发者不适应从传统到统计空间的思维转变,LLM 应用需注意“输入垃圾,输出垃圾”。
- 介绍 tokenization 过程,不同类型 tokenizer 及常见的 BPE 和 Wordpiece 等,不同 tokenizer 对文本的处理方式不同,如 all-MiniLM-L6-v2 和 tiktoken/OpenAI 对 emoji、错拼单词等的处理。
- 强调 tokenizers 虽有用但只是 RAG 故事的一部分,embeddings 能更好地保留文本上下文意义,在 RAG 流程中起重要作用,如不同情况(emoji、错拼单词、日期等)下 tokenization 对 RAG 的影响。
重要细节: - 作者朋友的应用处理电商数据,RAG 对某些查询效果不佳。
- 介绍 tokenizer 词汇表、各种 tokenizer 类型及常见实现,如 BPE 由 OpenAI 的 tiktoken 实现等。
- 通过代码展示不同 tokenizer 对特定文本的处理结果,如对 emoji、错拼单词、日期等的处理。
- 提到通过标准化格式、去除空格等清理输入文本可改善 RAG 效果,希望未来不用考虑 tokenizers。
- 给出相关参考文献及其他相关文章链接。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。