cyqian - SegmentFault 思否

中文维基百科文本数据获取与预处理

2016-05-09

阅读 4 分钟

14.2k

照例，先讲下环境，Mac OSX 10.11.2 ，Python 3.4.3。下载数据方法1：使用官方dump的xml数据最新打包的中文文档下载地址是：[链接] 。方法2：也是官方，结构化数据（json）下载地址是：[链接] 。目前尚未测试使用此数据，不多作介绍。但数据模型和已有的工具都可以在wikidata的站点上找到。解压与转存我使用方法1...

PostgreSQL两三事

2016-04-06

阅读 2 分钟

3.7k

至少在Ubuntu下，觉得原生的apt-get管理方式更合适，PG的文件资源会被分配到应该的地方，Linux的系统文件结构也是种非常稳健的架构。例如在/etc/postgresql下可以找到conf文件是一件清晰到爽的事情。正常通过apt安装的方式参见这篇博文。

项目迁移-从Eclipse到Android Studio

2016-03-01

阅读 2 分钟

2.9k

最近做的比较多的事情就是把公司的eclipse项目转入Android Studio中。很多问题的解决其实凭直觉瞎捣鼓即可，但是总还是能形成一些操作习惯和步骤，记录下来。

如何给nexus 5/6 刷上Android M preview 2

2015-07-11

阅读 2 分钟

3.5k

尽管不久的七月底应该就出第三个preview了，还是忍不住当了回小白，把nexus6刷成android M了，没有尝试nexus5，但就网上资料看，情况大致一样。首先看下google官方的timeline吧，传说中的M第三季度即将正式到来。

空间权重矩阵（SWM）

2015-06-07

阅读 2 分钟

15.5k

如何利用数学（如用面积、距离等）建立空间数据和非空间数据之间的关系？对于空间统计而言，空间权重矩阵是一种有效的表达空间关系的方式。因此，它是用量化的方法表示了数据之间的“空间结构”。

热点分析的原理

2015-06-01

阅读 1 分钟

15.1k

热点分析可以得到比较重要的两个东西，z得分和p值。这两个值用来帮助判断是否可以拒绝零假设。对于热点分析而言，零假设是要素的完全空间随机性。简单来说，我们希望要素能够得出的结论是具有显著的聚集或离散模式，而不是随机模式。

热点与聚集分析

2015-05-31

阅读 1 分钟

3.7k

将具有地理位置的数据定位到地图上进行可视化，是常用的方法，但是大量点数据的可视化往往具有迷惑性。例如某些数据集中会很多数据聚集在同一地理坐标上。

pymongo的find直接输出list

2015-04-06

阅读 1 分钟

7.7k

恩，其实就这么方便： {代码...} 当然，按理不该全部find出来到内存的，这只是个例子。

L1 norm和L2 norm

2015-04-06

阅读 1 分钟

4.9k

如果扩展到Lp范数，个人觉得这个解释的比较到位。具体到L1范数和L2范数。具体到向量长度或举例，简单地理解，L1对应的是曼哈顿距离，L2对应的是欧几里得距离。 L1 norm： L2 norm：

python抓取简单网页数据的小实例

2015-04-02

阅读 1 分钟

11k

抓取网页数据的思路有好多种，一般有：直接代码请求http、模拟浏览器请求数据（通常需要登录验证）、控制浏览器实现数据抓取等。这篇不考虑复杂情况，放一个读取简单网页数据的小例子：

python下定时器的写法

2015-04-02

阅读 1 分钟

5.3k

尝试了很多写法，有各种timer的trick，也有结合sched来做的（感觉其实是穿一条裤子的）。最后还是觉得这个略有点二的写法比较实用。 {代码...} 不清楚在某些特殊应用场景下有什么缺陷否。