我正在尝试从维基百科文本数据训练 word2vec 模型,因为我正在使用以下代码。
import logging
import os.path
import sys
import multiprocessing
from gensim.corpora import WikiCorpus
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
if __name__ == '__main__':
program = os.path.basename(sys.argv[0])
logger = logging.getLogger(program)
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s')
logging.root.setLevel(level=logging.INFO)
logger.info("running %s" % ' '.join(sys.argv))
# check and process input arguments
if len(sys.argv) < 3:
print (globals()['__doc__'])
sys.exit(1)
inp, outp = sys.argv[1:3]
model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())
# trim unneeded model memory = use (much) less RAM
model.init_sims(replace=True)
model.save(outp)
但是程序运行 20 分钟后,出现以下错误
原文由 suraj 发布,翻译遵循 CC BY-SA 4.0 许可协议
理想情况下,您应该将错误 文本 粘贴到您的问题中,而不是屏幕截图。但是,我看到了两个关键行:
在对您的语料库进行一次遍历后,该模型了解了有多少独特的单词将存活下来,这报告了必须分配多大的模型:一个占用大约
8777162200 bytes
(大约 8.8GB)。但是,当尝试分配所需的向量数组时,您会得到MemoryError
,这表明没有足够的计算机可寻址内存 (RAM) 可用。您可以:
You could reduce the number of words by increasing the default
min_count=5
parameter to something likemin_count=10
ormin_count=20
ormin_count=50
. (您可能不需要超过 200 万个单词向量——仅用几万个单词的词汇表就可能产生许多有趣的结果。)您还可以设置
max_final_vocab
值,以指定要保留的唯一单词的确切数量。例如,max_final_vocab=500000
将只保留 500000 个最常用的词,忽略其余词。减少
size
也将节省内存。size=300
的设置在词向量中很受欢迎,可以将内存需求减少四分之一。一起使用
size=300, max_final_vocab=500000
应该将所需的内存减少到 2GB 以下。