中文维基百科文本数据获取与预处理

2016-05-09
阅读 4 分钟
13.5k
照例,先讲下环境,Mac OSX 10.11.2 ,Python 3.4.3。 下载数据 方法1:使用官方dump的xml数据 最新打包的中文文档下载地址是:[链接] 。 方法2:也是官方,结构化数据(json) 下载地址是:[链接] 。目前尚未测试使用此数据,不多作介绍。但数据模型和已有的工具都可以在wikidata的站点上找到。 解压与转存 我使用方法1...