SF
一起学习python网络爬虫
一起学习python网络爬虫
注册登录
关注博客
注册登录
主页
关于
RSS
Scrapy入门程序点评
fullerhua
2016-06-13
阅读 2 分钟
3.5k
在《Scrapy的架构初探》一文,我基于爬虫开发的经验对Scrapy官网文章作了点评和解读,事件驱动的异步处理架构、极强的模块化等是个绝好的框架,接着我细读了官网的《Scrapy at a glance》,更加强了我的感受:就是他了——开源Python网络爬虫项目需要一个爬虫框架,我不想重复发明轮子,只想专注于爬虫里面的提取器的生成...
Scrapy的架构初探
fullerhua
2016-06-11
阅读 3 分钟
6.6k
本文简单讲解一下Scrapy的架构。没错,GooSeeker开源的通用提取器gsExtractor就是要集成到Scrapy架构中,最看重的是Scrapy的事件驱动的可扩展的架构。除了Scrapy,这一批研究对象还包括ScrapingHub,Import.io等,把先进的思路、技术引进来。
Python爬虫实战(2):爬取京东商品列表
fullerhua
2016-06-08
阅读 2 分钟
12.2k
在上一篇《python爬虫实战:爬取Drupal论坛帖子列表》,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容。相反,JavaScript实现的动态网页内容,无法从html源代码抓取需要的内容,必须先执行JavaScript。
Python爬虫实战(1):爬取Drupal论坛帖子列表
fullerhua
2016-06-06
阅读 2 分钟
7.5k
在《Python即时网络爬虫项目: 内容提取器的定义》一文我们定义了一个通用的python网络爬虫类,期望通过这个项目节省程序员一半以上的时间。本文将用一个实例讲解怎样使用这个爬虫类。我们将爬集搜客老版论坛,是一个用Drupal做的论坛。
Python编程规范
fullerhua
2016-06-02
阅读 3 分钟
3.1k
1,Python编程规范 > 编码所有的 Python 脚本文件都应在文件头标上 {代码...} 用于设置编辑器,默认保存为 utf-8 格式。 > 注释业界普遍认同 Python 的注释分为两种: 一种是由 # 开头的“真正的”注释,例如,用于表明为何选择当前实现以及这种实现的原理和难点 另一种是 docstrings,例如,用于表明如何使用这个包...
python爬虫:常用浏览器的useragent
fullerhua
2016-05-30
阅读 4 分钟
46.3k
1,为什么需要修改UserAgent 在写python网络爬虫程序的时候,经常需要修改UserAgent,有很多原因,罗列几个如下: 不同Agent下看到的内容不一样,比如,京东网站上的手机版网页和pc版网页上的商品优惠不一样 为避免被屏蔽,爬取不同的网站经常要定义和修改useragent值。 ...... 修改agent值这个操作本身比较简单,UserAg...
1分钟快速生成用于网页内容提取的xslt
fullerhua
2016-05-27
阅读 1 分钟
10.2k
在《Python即时网络爬虫项目说明》一文我们说过要做一个通用的网络爬虫,而且能节省程序员大半的时间,而焦点问题就是提取器使用的抓取规则需要快速生成。在python使用xslt提取网页数据一文,我们已经看到这个提取规则是xslt程序,在示例程序中,直接把一长段xslt赋值给变量,但是没有讲这一段xslt是怎么来的。
Python读取PDF内容
fullerhua
2016-05-23
阅读 2 分钟
10.5k
晚上翻看《Python网络数据采集》这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力,能够把pdf格式转换成html标签,比如,div之类的标签,从而用GooSeeker网页抓取软件像抓普通网页一样抓...