NLTK 停用词可用语言

新手上路,请多包涵

我想知道在哪里可以找到 NLTK 停用词支持的语言(及其键)的完整列表。

我在 https://pypi.org/project/stop-words/ 中找到了一个列表,但它不包含每个国家/地区的密钥。因此,不清楚是否可以通过简单地检索列表 stopwords.words("Bulgarian") 。事实上,这会引发错误。

我检查了 NLTK 站点,有 4 个文档匹配“停用词”,但没有一个描述它。 https://www.nltk.org/search.html?q=stopwords&check_keywords=yes&area=default

他们的书中什么也没说: http ://www.nltk.org/book/ch02.html#stopwords_index_term

那么,您知道在哪里可以找到密钥列表吗?

原文由 gal007 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 679
2 个回答

首先检查您是否下载 nltk 包。

如果没有,您可以使用以下方式下载它:

 import nltk
nltk.download()

在此之后,您可以在下面的路径中找到停用词语言文件。

 C:/Users/username/AppData/Roming/nltk_data/corpora/stopwords

它支持 21 种语言(几天前我安装了 nltk ,所以这个数字必须是最新的)。您可以将文件名作为参数传递给

nltk.corpus.stopwords.words('langauage')

原文由 Sociopath 发布,翻译遵循 CC BY-SA 4.0 许可协议

当您使用以下方式导入停用词时:

 from nltk.corpus import stopwords
english_stopwords = stopwords.words(language)

您正在检索基于 fileid(语言)的停用词。为了查看所有可用的停用词语言,您可以使用以下方法检索文件 ID 列表:

 from nltk.corpus import stopwords
print(stopwords.fileids())

对于 nltk v3.4.5,这将返回 23 种语言:

 ['arabic',
 'azerbaijani',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'turkish']

原文由 thechill 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
logo
Stack Overflow 翻译
子站问答
访问
宣传栏