WebMagic之Spider进阶

2017-04-24
阅读 3 分钟
5.2k
问题描述:由于数据库的数据量特别大,而且公司没有搞主从读写分离,导致从数据库读取数据比较慢,而我需要从数据库查询出特定标识来拼url去抓。实际运行中就发现了一个有趣的现象。爬虫抓取的速度超过了我用scheduler给它推送url的速度,导致爬虫从scheduler获取不到url,同时此刻线程池所有线程都已停止。这个时候,根...

爬虫框架WebMagic源码分析系列目录

2017-03-27
阅读 1 分钟
5.6k
爬虫框架Webmagic源码分析之Spider爬虫框架WebMagic源码分析之Scheduler爬虫框架WebMagic源码分析之Downloader爬虫框架WebMagic源码分析之Selector爬虫框架WebMagic源码分析之SeleniumWebMagic之Spider进阶

爬虫框架WebMagic源码分析之Selenium

2017-03-27
阅读 7 分钟
5.9k
webmagic有一个selenium模块,其中实现了一个SeleniumDownloader。但是感觉灵活性不大。所以我就自己参考实现了一个。

爬虫框架WebMagic源码分析之Selector

2017-03-27
阅读 1 分钟
4.4k
1、Selector部分:接口:Selector:定义了根据字符串选择单个元素和选择多个元素的方法。ElementSelector:定义了根据jsoup element选择单个、多个元素的方法。主要用于CSS、Xpath选择器.

爬虫框架WebMagic源码分析之Downloader

2017-03-27
阅读 13 分钟
9.5k
Downloader是负责请求url获取返回值(html、json、jsonp等)的一个组件。当然会同时处理POST重定向、Https验证、ip代理、判断失败重试等。

爬虫框架WebMagic源码分析之Scheduler

2017-03-26
阅读 6 分钟
6.9k
Scheduler是Webmagic中的url调度器,负责从Spider处理收集(push)需要抓取的url(Page的targetRequests)、并poll出将要被处理的url给Spider,同时还负责对url判断是否进行错误重试、及去重处理、以及总页面数、剩余页面数统计等。

爬虫框架Webmagic源码分析之Spider

2017-03-24
阅读 6 分钟
9.6k
本系列文章,针对Webmagic 0.6.1版本 一个普通爬虫启动代码 {代码...} 1、spider可配置插拔组件: Downloader 提供自定义的Downloader,默认为HttpClientDownloaderPipeline 提供自定义的Pipeline,可以配置多个,多个Pipeline链式处理结果。默认为ConsolePipelineScheduler 提供自定义的调度器,默认为QueueSchedulerPa...

Webmagic+Selenium+PhantomJS实战

2017-01-22
阅读 22 分钟
15.2k
还是直接贴代码说明比较实在。感觉webmagic-selenium这个模块有点鸡肋,但还是有可借鉴之处。借鉴它写了一个SeleniumDownloader,如下: