使用coreseek做中文分词时如何将特殊符号(#+/.等)纳入索引?

在做中文全文检索时我们采用的是coreseek,虽然它是基于sphinx开发的,但是有些sphinx的原生设置不能使用。 比如现在就遇到一个问题,我们需要能搜索到c#、c++等带有特殊字符的词,在sphinx中只需要在配置文件中的charset_table选项里增加这些特殊字符的unicode编码即可。

但在Coreseek中,启用中文分词后,系统会使用MMSeg内置的码表(被硬编码在MMSeg的程序中),因此,charset_table在启用分词后将失效。

按照www.coreseek.cn/opensource/mmseg/设置好: .net => dotnet c# => csharp c++ => cplusplus

执行完命令:mmseg -b exceptions.txt

名为"synonyms.dat"的文件,放在"uni.lib"同一目录下了。接下来还有什么步骤吗?这样做了后重建索引,重新启动searchd后并没有看到我想要的结果,使用的是coreseek-4.1-beta

阅读 5.9k
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
宣传栏