我想知道在哪里可以找到 NLTK 停用词支持的语言(及其键)的完整列表。
我在 https://pypi.org/project/stop-words/ 中找到了一个列表,但它不包含每个国家/地区的密钥。因此,不清楚是否可以通过简单地检索列表 stopwords.words("Bulgarian")
。事实上,这会引发错误。
我检查了 NLTK 站点,有 4 个文档匹配“停用词”,但没有一个描述它。 https://www.nltk.org/search.html?q=stopwords&check_keywords=yes&area=default
他们的书中什么也没说: http ://www.nltk.org/book/ch02.html#stopwords_index_term
那么,您知道在哪里可以找到密钥列表吗?
原文由 gal007 发布,翻译遵循 CC BY-SA 4.0 许可协议
首先检查您是否下载
nltk
包。如果没有,您可以使用以下方式下载它:
在此之后,您可以在下面的路径中找到停用词语言文件。
它支持 21 种语言(几天前我安装了
nltk
,所以这个数字必须是最新的)。您可以将文件名作为参数传递给nltk.corpus.stopwords.words('langauage')