SF
cyqian
cyqian
注册登录
关注博客
注册登录
主页
关于
RSS
中文维基百科文本数据获取与预处理
cyqian
2016-05-09
阅读 4 分钟
14.2k
照例,先讲下环境,Mac OSX 10.11.2 ,Python 3.4.3。 下载数据 方法1:使用官方dump的xml数据 最新打包的中文文档下载地址是:[链接] 。 方法2:也是官方,结构化数据(json) 下载地址是:[链接] 。目前尚未测试使用此数据,不多作介绍。但数据模型和已有的工具都可以在wikidata的站点上找到。 解压与转存 我使用方法1...
python抓取简单网页数据的小实例
cyqian
2015-04-02
阅读 1 分钟
11k
抓取网页数据的思路有好多种,一般有:直接代码请求http、模拟浏览器请求数据(通常需要登录验证)、控制浏览器实现数据抓取等。这篇不考虑复杂情况,放一个读取简单网页数据的小例子:
python下定时器的写法
cyqian
2015-04-02
阅读 1 分钟
5.3k
尝试了很多写法,有各种timer的trick,也有结合sched来做的(感觉其实是穿一条裤子的)。最后还是觉得这个略有点二的写法比较实用。 {代码...} 不清楚在某些特殊应用场景下有什么缺陷否。