为什么全文搜索很难

主要观点:全文本搜索包含分词、搜索、排序三个方面,且全文本搜索应简单的感觉常源于关注中间部分,实际并非如此,支持全球搜索需支持多种语言,各语言有其特定挑战,搜索过程中的各种需求如同义词、停用词等增加了复杂性,不同搜索特征如邻近性等进一步影响搜索词顺序计算,检索到匹配文档后需根据某种顺序显示,经典的 BM25 算法常被使用,如今更多利用机器学习技术训练排名和相关性模型,搜索的难度还在于文档数量,资源方面有知名的词干提取算法及关于倒排索引等的讲解和相关书籍。

关键信息:

  • 全文本搜索三方面及各自特点。
  • 多种语言的分词挑战。
  • 搜索过程中的各种需求及影响。
  • 不同排名算法及发展。
  • 搜索规模带来的难度。
  • 相关资源介绍。

重要细节:

  • 不同语言如中文、日语、韩语等的分词方式。
  • 搜索中的连词、析取词、邻近性等需求及影响。
  • BM25 算法及权重调整。
  • 利用机器学习训练排名模型的情况。
  • 不同语言的特定语言规则如俄语的变位等。
阅读 13
0 条评论