分类算法中如何收集停用词？

Question

问题背景：对生物、化学、医学等领域期刊进行分类，分类对象都是英文摘要；

目的：因为噪声太大，需要去掉一些影响分类的停用词；

nltk的corpus给出了一些常用停用词，比如‘is’、‘we’、‘as’等。
但是同时我也需要去掉类似‘advantage’、‘year’、‘important’、‘present’这些影响分类的词语；

请教有没有什么好方法预先收集到这些停用词？

阅读 4.3k

1 个回答

得票最新

Is,are这样的停用词有现成的，像year这样的可以不用停用词表来过滤，对分类无意义的词在降维的时候就被排除了

撰写回答

相似问题

找不到问题？创建新问题