scrapy_redis 和 docker 实现简单分布式爬虫

2016-08-11
阅读 3 分钟
12k
在使用 scrapy 爬取 IT桔子公司信息,用来进行分析,了解 IT 创业公司的一切情况,之前使用 scrapy 写了一个默认线程是10的单个实例,为了防止被 ban IP 设置了下载的速度,3万多个公司信息爬了1天多才完成,现在想到使用分布式爬虫来提高效率。

segmentfault 线下活动数据分析

2016-08-05
阅读 2 分钟
2.1k
开始说明 目标:练习爬虫 KeyWord:python3.5 scrapy BeautifulSoup4 mysql flaskechart3 segmentfault 上的很多线下技术交流活动都很好,我自己也参加过一些,就比较好奇这些活动都有哪些特点,比如说: 一般在星期几举办? 什么月份比较多? 哪个城市比较多? 一般都是哪些类型的? 主要分两个部分:爬虫抓取部分、数...