数据采集的另一种思路 - 浏览器脚本注入

2019-05-31
阅读 2 分钟
2.6k
昨天想去极客时间把购买的一个专栏里的数据扒下来,发现之前写的python脚本不能用了,原因是他们网站做了限流、也加了http时间戳的一些校验。我们可以将之前的python脚本进行改进,用ip代理池来处理限流,寻找时间戳验证的规则就可以解决。

一篇文章学会二叉树和二叉查找树

2019-05-14
阅读 8 分钟
2.2k
树是计算机科学中经常用到的一种数据结构。树是一种非线性的数据结构,以分层的方式存储数据。 树被用来存储具有层级关系的数据,比如文件系统中的文件。 树还可以用来存储有序列表。 树的定义 树是由一组以边连接的节点组成。公司的组织结构图就是一个树的例子。 组织结构图就是一种树一棵树最上面的节点成为根节点。如...

小程序开发(二):使用hapi快速开发接口

2019-04-24
阅读 3 分钟
3.6k
上篇文章中,我们介绍了数据采集相关的知识,这篇文章中,我们来整理下nodejs开发后台常用的库,然后选择hapi来进行restful API的开发,以及定时任务、RPC的使用。

小程序开发(一):使用scrapy爬虫采集数据

2019-04-23
阅读 2 分钟
3.8k
我会整理下整个开发过程中遇到的问题和一些细节问题,因为内容会比较多,我会分成三到四篇文章来进行,本文是该系列的第一篇文章,内容偏python爬虫。

2018微博词云项目深度解析

2019-01-04
阅读 2 分钟
2.2k
最初产生这个项目的想法应该是在2018年10月份,当时正在学习python中,就萌生了这样一个想法:从一个用户这一年发布的微博数据中,提取最有意义的top50个关键词。很明显涉及到了数据采集和自然语言处理的一些知识。

利用javascript获取图片的top N主色值

2018-01-25
阅读 2 分钟
1.4k
先来一道面试题热热身。 题目要求 找出一个页面中出现次数最多的标签!!! 个人解法: {代码...} 思路: 拿到所有的标签--根据标签名称聚类---根据权重排序。 如果有更好的方法,欢迎交流。 下面看今天这个问题: 获取一张图片的top N主色值,和上面最多标签的问题很类似,数据大小有区别,别的都差不多的。 这个问题思...