对英文文本预处理？

依依雨柔

233664112

发布于
2017-12-18

如何去掉里面的数字、标点、特殊字符、停用词等？用python实现

python nltk

阅读 7k

3 个回答

得票最新

patrickwang96

21212

发布于
2017-12-18

✓ 已被采纳

既然加了nltk的tag，大概是想问怎么调nltk的api吧

from nltk.stem import PorterStemmer
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords

tokenizer = RegexpTokenizer(r'\w+')
stemmer = PorterStemmer()
stop_words = set(stopwords.words('english'))


input_str = input_str.lower()
raw_tokens = tokenizer.tokenize(input_str)
stemmed_tokens = [stemmer.stem(token) for token in raw_tokens]
stemmed_tokens = map(stemmer.stem, raw_tokens)
stemmed_tokens_without_stopword = filter(lambda i: i not in stop_words, stemmed_tokens)