分类算法中如何收集停用词?

问题背景:对生物、化学、医学等领域期刊进行分类,分类对象都是英文摘要;

目的:因为噪声太大,需要去掉一些影响分类的停用词;

nltk的corpus给出了一些常用停用词,比如‘is’、‘we’、‘as’等。
但是同时我也需要去掉类似‘advantage’、‘year’、‘important’、‘present’这些影响分类的词语;

请教有没有什么好方法预先收集到这些停用词?

阅读 4.3k
1 个回答

Is,are这样的停用词有现成的,像year这样的可以不用停用词表来过滤,对分类无意义的词在降维的时候就被排除了

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进