jieba分词,同一个词却被分成了两个词,该怎么解决?

对一篇文章进行分词,打算统计词频,但有个问题是对于同一个词,比如说刘德华,jieba分词返回的结果会出现刘德华出现13次,刘德出现7次,但那7个刘德右邻词都是华,理论上分词的结果应该出现20次刘德华才对,这种分词歧义问题该怎么解决呢?

阅读 7.2k
1 个回答

添加词典。

jieba.load_userdict(file_name.txt)

filename.txt里面写:

刘德华 nz

或者添加单词

jieba.add_word('刘德华')
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题