用Python实现不同数据源的对象匹配【思考】

2016-10-07
阅读 1 分钟
3.1k
开始匹配之前可以进行一些简单的判断,看看所得到的数据的纯净度如何,比如是否存在重复数据?重复数据重复的情形(完全重复or部分重复)以及按某一字段排序来进一步分析看看;

用Python实现不同数据源的对象匹配【实验记录】

2016-09-18
阅读 51 分钟
8.6k
nationality or place of birth?应该还是用nationality,不过分析数据过程中发现存在诸如' Morocco|Germany '的字段,考虑用分隔后,多国籍分别分组