python 文本挖掘 vectorizer.fit_transform(corpus).toarray() 矩阵化数据异常？

Question

python 文本挖掘 vectorizer.fit_transform(corpus).toarray() 矩阵化数据异常？

发布于
2018-08-24

例如我有一个语料：

# corpus = ["我 来到 北京 清华大学",  # 第一类文本切词后的结果，词之间以空格隔开
#           "他 来到 了 网易 杭研 大厦",  # 第二类文本的切词结果
#           "小明 硕士 毕业 与 中国 科学院",  # 第三类文本的切词结果
#           "我 爱 北京 天安门"]  # 第四类文本的切词结果

这样的时候我运行：


    vectorizer = TfidfVectorizer(min_df=1)
    vectorizer.fit_transform(corpus)
    print(vectorizer.transform(corpus).toarray()

出来正常的如下面：
[[0. 0.52640543 0. 0. 0. 0.52640543

1. 0.66767854 0. 0. 0. ]

[0. 0. 0.52547275 0. 0. 0.41428875
0.52547275 0. 0. 0. 0. 0.52547275]
[0.4472136 0. 0. 0. 0.4472136 0.

0.4472136 0. 0.4472136 0.4472136 0. ]

[0. 0.6191303 0. 0.78528828 0. 0.

1. 1. 1. 1. ]]

但是当我的corpus 这个列表非常大的时候例如长度为1w的时候。
我在运行上面的代码，出来的矩阵每一行除了一个是 1 之外其余都是 0 ？
这是为什么呢？

python

阅读 6.4k

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

python 文本挖掘 vectorizer.fit_transform(corpus).toarray() 矩阵化数据异常？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？