NLP如何对提取出来的新词进行词向量的过滤?就是提取出来的新词可能什么方向的都有,我只需要其中某个领域的,比如医疗相关的。如何能实现对新词的一个过滤,进一步去除不相连的新词。
NLP如何对提取出来的新词进行词向量的过滤?就是提取出来的新词可能什么方向的都有,我只需要其中某个领域的,比如医疗相关的。如何能实现对新词的一个过滤,进一步去除不相连的新词。
NLP文本处理:词的过滤(Words Filtering)【停用词、低频词】
import nltk
from nltk.corpus import stopwords
stopset = set(stopwords.words('english'))
已参与 「极客观点」 ,欢迎正在阅读的你也加入。
word2vec 了解一下
然后看医疗领域值大于0.5,就算这个新词成功上岸