维基媒体搜索支持多少种语言? – [[WM:TECHBLOG]]

主要观点:关于维基媒体搜索平台支持的语言数量存在模糊性,从“完全支持”41 - 48种语言到“适度支持”3种语言、“最小支持”4.5 - 14种语言,还有一些难以界定是否支持的情况,包括学习排名、跨语言搜索等方面,搜索平台团队致力于为所有或几乎所有语言进行改进,支持所有维基社区,但确切语言数量难以确定。

关键信息:

  • 维基媒体搜索平台的自定义组件CirrusSearch基于Elasticsearch,Elasticsearch 7.10支持33种语言,包括阿拉伯语等,还另有巴西葡萄牙语等分析器。
  • 找到一些开源软件为特定语言提供词干提取或其他处理,如塞尔维亚语等,以及为中文、希伯来语、韩语、波兰语和乌克兰语等提供相应支持。
  • 一些语言有不同变体,如埃及阿拉伯语等共享语言分析配置,计数时存在哲学性问题。
  • 一些语言有适度语言特定处理,如日语的CJK分析器等。
  • 一些语言有最小语言特定处理,如阿塞拜疆语等,还有一些难以界定是否支持的语言相关情况。
  • 除语言分析外,学习排名和跨语言搜索等方面也对特定维基进行支持。

重要细节:

  • 不同语言的支持情况复杂多样,涉及词干提取、分词器、停用词列表等多个方面。
  • 对于一些语言变体的计数存在争议,如塞尔维亚语等的不同标准变体。
  • 一些语言特定处理的情况较为特殊,如高棉语的复杂处理等。
  • 学习排名和跨语言搜索等方面的具体实施和影响。
阅读 20
0 条评论