我正在 sklearn 中寻找一个模块,它可以让你推导出词-词共现矩阵。
我可以获得文档术语矩阵,但不确定如何获取共现的词词矩阵。
原文由 newdev14 发布,翻译遵循 CC BY-SA 4.0 许可协议
我正在 sklearn 中寻找一个模块,它可以让你推导出词-词共现矩阵。
我可以获得文档术语矩阵,但不确定如何获取共现的词词矩阵。
原文由 newdev14 发布,翻译遵循 CC BY-SA 4.0 许可协议
2 回答5.2k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1.4k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
2 回答873 阅读✓ 已解决
1 回答1.8k 阅读✓ 已解决
这是我在 scikit-learn 中使用
CountVectorizer
的示例解决方案。并参考这篇 文章,您可以简单地使用矩阵乘法来获得词词共现矩阵。您也可以参考
count_model
中的词典,或者,如果您想按对角线分量进行归一化(参考上一篇文章中的答案)。
额外 注意@Federico Caccia 的回答,如果您不希望从自己的文本中出现虚假的共现,请将大于 1 的出现设置为 1,例如