中文维基百科文本数据获取与预处理

2016-05-09
阅读 4 分钟
13.6k
照例,先讲下环境,Mac OSX 10.11.2 ,Python 3.4.3。 下载数据 方法1:使用官方dump的xml数据 最新打包的中文文档下载地址是:[链接] 。 方法2:也是官方,结构化数据(json) 下载地址是:[链接] 。目前尚未测试使用此数据,不多作介绍。但数据模型和已有的工具都可以在wikidata的站点上找到。 解压与转存 我使用方法1...

PostgreSQL两三事

2016-04-07
阅读 2 分钟
3.4k
至少在Ubuntu下,觉得原生的apt-get管理方式更合适,PG的文件资源会被分配到应该的地方,Linux的系统文件结构也是种非常稳健的架构。例如在/etc/postgresql下可以找到conf文件是一件清晰到爽的事情。正常通过apt安装的方式参见这篇博文。

项目迁移-从Eclipse到Android Studio

2016-03-01
阅读 2 分钟
2.7k
最近做的比较多的事情就是把公司的eclipse项目转入Android Studio中。很多问题的解决其实凭直觉瞎捣鼓即可,但是总还是能形成一些操作习惯和步骤,记录下来。

如何给nexus 5/6 刷上Android M preview 2

2015-07-11
阅读 2 分钟
3.2k
尽管不久的七月底应该就出第三个preview了,还是忍不住当了回小白,把nexus6刷成android M了,没有尝试nexus5,但就网上资料看,情况大致一样。首先看下google官方的timeline吧,传说中的M第三季度即将正式到来。

空间权重矩阵(SWM)

2015-06-07
阅读 2 分钟
15k
如何利用数学(如用面积、距离等)建立空间数据和非空间数据之间的关系?对于空间统计而言,空间权重矩阵是一种有效的表达空间关系的方式。因此,它是用量化的方法表示了数据之间的“空间结构”。

热点分析的原理

2015-06-01
阅读 1 分钟
14.2k
热点分析可以得到比较重要的两个东西,z得分和p值。这两个值用来帮助判断是否可以拒绝零假设。对于热点分析而言,零假设是要素的完全空间随机性。简单来说,我们希望要素能够得出的结论是具有显著的聚集或离散模式,而不是随机模式。

热点与聚集分析

2015-05-31
阅读 1 分钟
2.9k
将具有地理位置的数据定位到地图上进行可视化,是常用的方法,但是大量点数据的可视化往往具有迷惑性。例如某些数据集中会很多数据聚集在同一地理坐标上。

pymongo的find直接输出list

2015-04-06
阅读 1 分钟
7.4k
恩,其实就这么方便: {代码...} 当然,按理不该全部find出来到内存的,这只是个例子。

L1 norm和L2 norm

2015-04-06
阅读 1 分钟
4.6k
如果扩展到Lp范数,个人觉得这个解释的比较到位。 具体到L1范数和L2范数。具体到向量长度或举例,简单地理解,L1对应的是曼哈顿距离,L2对应的是欧几里得距离。 L1 norm: L2 norm:

python抓取简单网页数据的小实例

2015-04-02
阅读 1 分钟
10.6k
抓取网页数据的思路有好多种,一般有:直接代码请求http、模拟浏览器请求数据(通常需要登录验证)、控制浏览器实现数据抓取等。这篇不考虑复杂情况,放一个读取简单网页数据的小例子:

python下定时器的写法

2015-04-02
阅读 1 分钟
5.1k
尝试了很多写法,有各种timer的trick,也有结合sched来做的(感觉其实是穿一条裤子的)。最后还是觉得这个略有点二的写法比较实用。 {代码...} 不清楚在某些特殊应用场景下有什么缺陷否。