Word2Vec 训练英文文本如何按逗号分词

发布于
2017-12-05

更新于
2017-12-05

import logging
import os
import sys
import multiprocessing
 
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
 
if __name__ == '__main__':
    program = os.path.basename(sys.argv[0])
    logger = logging.getLogger(program)
 
    logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
    logging.root.setLevel(level=logging.INFO)
    logger.info("running %s" % ' '.join(sys.argv))
 
    # check and process input arguments
    if len(sys.argv) < 4:
        print(globals()['__doc__'] % locals())
        sys.exit(1)
    inp, outp1, outp2 = sys.argv[1:4]
 
    model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5,
                     workers=multiprocessing.cpu_count())
 
    # trim unneeded model memory = use(much) less RAM
    # model.init_sims(replace=True)
    model.save(outp1)
    model.wv.save_word2vec_format(outp2, binary=False)

训练集中是分好的，训练完词汇表中是独立的单词
图片描述

word2vec

python

阅读 4.6k

2 个回答

得票最新

Beginner_J

625

发布于
2017-12-06

✓ 已被采纳

定位到from gensim.models.word2vec.LineSentence
将line = utils.to_unicode(line).split(' ')改为line = utils.to_unicode(line).split(',')

起风了

4.1k2922

发布于
2017-12-06

更新于
2017-12-06

LineSentence类的要求是：

Simple format: one sentence = one line; words already preprocessed and separated by     whitespace

你需要自己简单预处理一下。

现在比较流行的是doc2vec，有兴趣可以看下：https://segmentfault.com/a/11...

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

Word2Vec 训练英文文本如何按逗号分词

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

如何实现一个深拷贝函数？

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？