下面的代码将句子分成单独的标记,输出如下
"cloud" "computing" "is" "benefiting" " major" "manufacturing" "companies"
import en_core_web_sm
nlp = en_core_web_sm.load()
doc = nlp("Cloud computing is benefiting major manufacturing companies")
for token in doc:
print(token.text)
我最理想的是一起阅读“云计算”,因为它在技术上是一个词。
基本上我正在寻找一个双克。 Spacy 中是否有允许 Bi gram 或 Tri grams 的功能?
原文由 venkatttaknev 发布,翻译遵循 CC BY-SA 4.0 许可协议
Spacy 允许检测名词块。因此,要将您的名词短语解析为单个实体,请执行以下操作:
检测名词块 https://spacy.io/usage/linguistic-features#noun-chunks
合并名词块
再次进行依赖解析,它现在会将“云计算”解析为单个实体。