在做中文全文检索时我们采用的是coreseek,虽然它是基于sphinx开发的,但是有些sphinx的原生设置不能使用。 比如现在就遇到一个问题,我们需要能搜索到c#、c++等带有特殊字符的词,在sphinx中只需要在配置文件中的charset_table选项里增加这些特殊字符的unicode编码即可。
但在Coreseek中,启用中文分词后,系统会使用MMSeg内置的码表(被硬编码在MMSeg的程序中),因此,charset_table在启用分词后将失效。
按照www.coreseek.cn/opensource/mmseg/设置好: .net => dotnet c# => csharp c++ => cplusplus
执行完命令:mmseg -b exceptions.txt
名为"synonyms.dat"的文件,放在"uni.lib"同一目录下了。接下来还有什么步骤吗?这样做了后重建索引,重新启动searchd后并没有看到我想要的结果,使用的是coreseek-4.1-beta