新手上路，请多包涵

我正在尝试从维基百科文本数据训练 word2vec 模型，因为我正在使用以下代码。

 import logging
import os.path
import sys
import multiprocessing

from gensim.corpora import  WikiCorpus
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence

if __name__ == '__main__':
    program = os.path.basename(sys.argv[0])
    logger = logging.getLogger(program)

    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s')
    logging.root.setLevel(level=logging.INFO)
    logger.info("running %s" % ' '.join(sys.argv))

    # check and process input arguments

    if len(sys.argv) < 3:
        print (globals()['__doc__'])
        sys.exit(1)
    inp, outp = sys.argv[1:3]

    model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())

    # trim unneeded model memory = use (much) less RAM
    model.init_sims(replace=True)

    model.save(outp)

但是程序运行 20 分钟后，出现以下错误

错误信息

原文由 suraj 发布，翻译遵循 CC BY-SA 4.0 许可协议

python multiprocessing python-multiprocessing gensim word2vec

阅读 596

2 个回答

得票最新

社区维基

发布于
2023-01-09

✓ 已被采纳

理想情况下，您应该将错误文本粘贴到您的问题中，而不是屏幕截图。但是，我看到了两个关键行：

 <TIMESTAMP> : INFO : estimated required memory for 2372206 words and 400 dimensions: 8777162200 bytes
...
MemoryError: unable to allocate array with shape (2372206, 400) and data type float32

在对您的语料库进行一次遍历后，该模型了解了有多少独特的单词将存活下来，这报告了必须分配多大的模型：一个占用大约 8777162200 bytes （大约 8.8GB）。但是，当尝试分配所需的向量数组时，您会得到 MemoryError ，这表明没有足够的计算机可寻址内存 (RAM) 可用。

您可以：

在有更多内存的地方运行，也许通过向现有系统添加 RAM；或者
减少所需的内存量，主要是通过减少您想要训练的唯一词向量的数量或它们的维度大小。

You could reduce the number of words by increasing the default min_count=5 parameter to something like min_count=10 or min_count=20 or min_count=50 . （您可能不需要超过 200 万个单词向量——仅用几万个单词的词汇表就可能产生许多有趣的结果。）

您还可以设置 max_final_vocab 值，以指定要保留的唯一单词的确切数量。例如， max_final_vocab=500000 将只保留 500000 个最常用的词，忽略其余词。

减少 size 也将节省内存。 size=300 的设置在词向量中很受欢迎，可以将内存需求减少四分之一。

一起使用 size=300, max_final_vocab=500000 应该将所需的内存减少到 2GB 以下。

原文由 gojomo 发布，翻译遵循 CC BY-SA 4.0 许可协议

查看全部 2 个回答

推荐问题

MemoryError：在 python 中使用 word2vec 时无法分配形状和数据类型为 float32 的数组

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译