项目中会对各种附件:Word
、Excel
、Pdf
等做 Elastic
存储并使用中文分词插件(目前使用 ik
),但很多专业领域的分词或简历中的 人名
、公司
等默认分词插件里是没的,请问是否有实时的解决方案,例如:当存入一个新附件时能将其内容中的信息按照规则进行分词、而不是要编辑中文分词插件的配置然后重启 Elastic
项目中会对各种附件:Word
、Excel
、Pdf
等做 Elastic
存储并使用中文分词插件(目前使用 ik
),但很多专业领域的分词或简历中的 人名
、公司
等默认分词插件里是没的,请问是否有实时的解决方案,例如:当存入一个新附件时能将其内容中的信息按照规则进行分词、而不是要编辑中文分词插件的配置然后重启 Elastic
1 回答2.7k 阅读
2 回答3.4k 阅读
1 回答1.2k 阅读
使用Tomcat或Nginx作为外部Web服务器,将词典文件通过Web服务器共享。然后在IK分词器配置文件中,配置远程扩展字典。这样当需要更新词库时,直接编辑文件即可,ES那边就可以实时更新。