对一篇文章进行分词,打算统计词频,但有个问题是对于同一个词,比如说刘德华,jieba分词返回的结果会出现刘德华出现13次,刘德出现7次,但那7个刘德右邻词都是华,理论上分词的结果应该出现20次刘德华才对,这种分词歧义问题该怎么解决呢?
对一篇文章进行分词,打算统计词频,但有个问题是对于同一个词,比如说刘德华,jieba分词返回的结果会出现刘德华出现13次,刘德出现7次,但那7个刘德右邻词都是华,理论上分词的结果应该出现20次刘德华才对,这种分词歧义问题该怎么解决呢?
4 回答4.5k 阅读✓ 已解决
1 回答3.4k 阅读✓ 已解决
4 回答3.9k 阅读✓ 已解决
3 回答2.2k 阅读✓ 已解决
1 回答4.5k 阅读✓ 已解决
1 回答3.9k 阅读✓ 已解决
2 回答444 阅读✓ 已解决
添加词典。
filename.txt
里面写:或者添加单词