使用coreseek做中文分词时如何将特殊符号（#+/.等）纳入索引？

Question

使用coreseek做中文分词时如何将特殊符号（#+/.等）纳入索引？

发布于
2013-06-17

在做中文全文检索时我们采用的是coreseek，虽然它是基于sphinx开发的，但是有些sphinx的原生设置不能使用。比如现在就遇到一个问题，我们需要能搜索到c#、c++等带有特殊字符的词，在sphinx中只需要在配置文件中的charset_table选项里增加这些特殊字符的unicode编码即可。

但在Coreseek中，启用中文分词后，系统会使用MMSeg内置的码表（被硬编码在MMSeg的程序中），因此，charset_table在启用分词后将失效。

按照www.coreseek.cn/opensource/mmseg/设置好： .net => dotnet c# => csharp c++ => cplusplus

执行完命令：mmseg -b exceptions.txt

名为"synonyms.dat"的文件，放在"uni.lib"同一目录下了。接下来还有什么步骤吗？这样做了后重建索引，重新启动searchd后并没有看到我想要的结果，使用的是coreseek-4.1-beta

sphinx

阅读 5.9k

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

相似问题

找不到问题？创建新问题