问题背景:对生物、化学、医学等领域期刊进行分类,分类对象都是英文摘要;
目的:因为噪声太大,需要去掉一些影响分类的停用词;
nltk的corpus给出了一些常用停用词,比如‘is’、‘we’、‘as’等。
但是同时我也需要去掉类似‘advantage’、‘year’、‘important’、‘present’这些影响分类的词语;
请教有没有什么好方法预先收集到这些停用词?
问题背景:对生物、化学、医学等领域期刊进行分类,分类对象都是英文摘要;
目的:因为噪声太大,需要去掉一些影响分类的停用词;
nltk的corpus给出了一些常用停用词,比如‘is’、‘we’、‘as’等。
但是同时我也需要去掉类似‘advantage’、‘year’、‘important’、‘present’这些影响分类的词语;
请教有没有什么好方法预先收集到这些停用词?
Is,are这样的停用词有现成的,像year这样的可以不用停用词表来过滤,对分类无意义的词在降维的时候就被排除了