一起学习python网络爬虫 - SegmentFault 思否

快速制作规则及获取规则提取器API

2016-10-25

阅读 4 分钟

3.8k

前面文章的测试案例都用到了集搜客Gooseeker提供的规则提取器，在网页抓取工作中，调试正则表达式或者XPath都是特别繁琐的，耗时耗力，工作枯燥，如果有一个工具可以快速生成规则，而且可以可视化的即时验证，就能把程序员解放出来，投入到创造性工作中。

为采集动态网页安装和测试Python Selenium库

fullerhua

2016-10-25

阅读 3 分钟

3.7k

上一篇《为编写网络爬虫程序安装Python3.5》中测试小例子对静态网页做了一个简单的采集程序，而动态网页因为需要动态加载js获取数据，所以使用urllib直接openurl已经不能满足采集的需求了。这里我们使用selenium库，通过它我们可以很简单的使用浏览器来为我们加载动态内容，从而获取采集结果。

为编写网络爬虫程序安装Python3.5

fullerhua

2016-09-28

阅读 5 分钟

4.6k

2.1 双击打开安装包，选择自定义路径(注意安装路径中尽量不要含有有中文或者空格)，然后选中Add Python 3.5 to PATH(将Python安装路径添加到系统变量Path中，这样做以后在任意目录下都可以执行pyhton命令了)

Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)

fullerhua

2016-08-05

阅读 4 分钟

4.5k

在Python即时网络爬虫项目启动说明中我们讨论一个数字：程序员浪费在调测内容提取规则上的时间太多了（见上图），从而我们发起了这个项目，把程序员从繁琐的调测规则中解放出来，投入到更高端的数据处理工作中。

Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页

fullerhua

2016-07-15

阅读 3 分钟

9.3k

Python开源网络爬虫项目启动之初，我们就把网络爬虫分成两类：即时爬虫和收割式网络爬虫。为了适应各种应用场景，GooSeeker的整个网络爬虫产品线包含了四类产品，如下图所示：

Python爬虫实战（3）：安居客房产经纪人信息采集

fullerhua

2016-07-11

阅读 3 分钟

7.4k

Python开源网络爬虫项目启动之初，我们就把网络爬虫分成两类：即时爬虫和收割式网络爬虫。为了使用各种应用场景，该项目的整个网络爬虫产品线包含了四类产品，如下图所示：本实战是上图中的“独立python爬虫”的一个实例，以采集安居客房产经纪人([链接] )信息为例，记录整个采集流程，包括python和依赖库的安装，即便是py...

Python信息采集器使用轻量级关系型数据库SQLite

fullerhua

2016-07-07

阅读 3 分钟

3.9k

Python自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库，可以搭配Python建网站，或者为python网络爬虫存储数据。SQLite还在其它领域有广泛的应用，比如HTML5和移动端。

Python网页信息采集：使用PhantomJS采集淘宝天猫商品内容

fullerhua

2016-07-04

阅读 5 分钟

11.7k

最近一直在看Scrapy 爬虫框架，并尝试使用Scrapy框架写一个可以实现网页信息采集的简单的小程序。尝试过程中遇到了很多小问题，希望大家多多指教。

让Scrapy的Spider更通用

fullerhua

2016-06-30

阅读 2 分钟

《Scrapy的架构初探》一文所讲的Spider是整个架构中最定制化的一个部件，Spider负责把网页内容提取出来，而不同数据采集目标的内容结构不一样，几乎需要为每一类网页都做定制。我们有个设想：是否能做一个比较通用的Spider，把定制部分再进一步隔离出去？

API例子：用Python驱动Firefox采集网页数据

fullerhua

2016-06-28

阅读 4 分钟

4.7k

本文讲解怎样用Python驱动Firefox浏览器写一个简易的网页数据采集器。开源Python即时网络爬虫项目将与Scrapy（基于twisted的异步网络框架）集成，所以本例将使用Scrapy采集淘宝这种含有大量ajax代码的网页数据，但是要注意本例一个严重缺陷：用Selenium加载网页的过程发生在Spider中，破坏了Scrapy的架构原则。所以，本...

API例子：用Java/JavaScript下载内容提取器

fullerhua

2016-06-24

阅读 5 分钟

3.8k

本文讲解怎样用Java和JavaScript使用 GooSeeker API 接口下载内容提取器，这是一个示例程序。什么是内容提取器？为什么用这种方式？源自Python即时网络爬虫开源项目：通过生成内容提取器，大幅节省程序员时间。具体请参看《内容提取器的定义》。

Python即时网络爬虫：API说明

fullerhua

2016-06-22

阅读 2 分钟

7.6k

如果您想编写一个网络爬虫程序，您会发现大部分时间耗费在调测网页内容提取规则上，不讲正则表达式的语法如何怪异，即便使用XPath，您也得逐个编写和调试。

Python: xml转json

fullerhua

2016-06-17

阅读 3 分钟

5.2k

GooSeeker早在9年前就开始了Semantic Web领域的产品化，MS谋数台和DS打数机是其中两个产品。对web内容做结构化转换和语义处理的主要路线是 XML -> RDF -> Ontology Engineering。所以这两款产品的输出信息是XML格式的，实现第一步：结构化转换。单纯作为一个网页采集器来说，输出XML格式也有好处，这是一种标准格...

Scrapy：python3下的第一次运行测试

fullerhua

2016-06-15

阅读 4 分钟

8.5k

1，引言《Scrapy的架构初探》一文讲解了Scrapy的架构，本文就实际来安装运行一下Scrapy爬虫。本文以官网的tutorial作为例子，完整的代码可以在github上下载。 2，运行环境配置本次测试的环境是：Windows10， Python3.4.3 32bit 安装Scrapy ： $ pip install Scrapy #实际安装时，由于服务器状态的不稳定，出现好几次中...

Scrapy入门程序点评

fullerhua

2016-06-13

阅读 2 分钟

3.5k

在《Scrapy的架构初探》一文，我基于爬虫开发的经验对Scrapy官网文章作了点评和解读，事件驱动的异步处理架构、极强的模块化等是个绝好的框架，接着我细读了官网的《Scrapy at a glance》，更加强了我的感受：就是他了——开源Python网络爬虫项目需要一个爬虫框架，我不想重复发明轮子，只想专注于爬虫里面的提取器的生成...

Scrapy的架构初探

fullerhua

2016-06-11

阅读 3 分钟

6.6k

本文简单讲解一下Scrapy的架构。没错，GooSeeker开源的通用提取器gsExtractor就是要集成到Scrapy架构中，最看重的是Scrapy的事件驱动的可扩展的架构。除了Scrapy，这一批研究对象还包括ScrapingHub，Import.io等，把先进的思路、技术引进来。

Python爬虫实战（2）：爬取京东商品列表

fullerhua

2016-06-08

阅读 2 分钟

12.2k

在上一篇《python爬虫实战：爬取Drupal论坛帖子列表》，爬取了一个用Drupal做的论坛，是静态页面，抓取比较容易，即使直接解析html源文件都可以抓取到需要的内容。相反，JavaScript实现的动态网页内容，无法从html源代码抓取需要的内容，必须先执行JavaScript。

Python爬虫实战（1）：爬取Drupal论坛帖子列表

fullerhua

2016-06-06

阅读 2 分钟

7.5k

在《Python即时网络爬虫项目: 内容提取器的定义》一文我们定义了一个通用的python网络爬虫类，期望通过这个项目节省程序员一半以上的时间。本文将用一个实例讲解怎样使用这个爬虫类。我们将爬集搜客老版论坛，是一个用Drupal做的论坛。

Python编程规范

fullerhua

2016-06-02

阅读 3 分钟

3.1k

1，Python编程规范 > 编码所有的 Python 脚本文件都应在文件头标上 {代码...} 用于设置编辑器，默认保存为 utf-8 格式。 > 注释业界普遍认同 Python 的注释分为两种：一种是由 # 开头的“真正的”注释，例如，用于表明为何选择当前实现以及这种实现的原理和难点另一种是 docstrings，例如，用于表明如何使用这个包...

python爬虫：常用浏览器的useragent

fullerhua

2016-05-30

阅读 4 分钟

46.3k

1，为什么需要修改UserAgent 在写python网络爬虫程序的时候，经常需要修改UserAgent，有很多原因，罗列几个如下：不同Agent下看到的内容不一样，比如，京东网站上的手机版网页和pc版网页上的商品优惠不一样为避免被屏蔽，爬取不同的网站经常要定义和修改useragent值。 ...... 修改agent值这个操作本身比较简单，UserAg...

1分钟快速生成用于网页内容提取的xslt

fullerhua

2016-05-27

阅读 1 分钟

10.1k

在《Python即时网络爬虫项目说明》一文我们说过要做一个通用的网络爬虫，而且能节省程序员大半的时间，而焦点问题就是提取器使用的抓取规则需要快速生成。在python使用xslt提取网页数据一文，我们已经看到这个提取规则是xslt程序，在示例程序中，直接把一长段xslt赋值给变量，但是没有讲这一段xslt是怎么来的。

Python即时网络爬虫项目: 内容提取器的定义

fullerhua

2016-05-25

阅读 3 分钟

7.7k

在python 即时网络爬虫项目启动说明中我们讨论一个数字：程序员浪费在调测内容提取规则上的时间，从而我们发起了这个项目，把程序员从繁琐的调测规则中解放出来，投入到更高端的数据处理工作中。

Python读取PDF内容

fullerhua

2016-05-23

阅读 2 分钟

10.5k

晚上翻看《Python网络数据采集》这本书，看到读取PDF内容的代码，想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则，这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力，能够把pdf格式转换成html标签，比如，div之类的标签，从而用GooSeeker网页抓取软件像抓普通网页一样抓...

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

fullerhua

2016-05-18

阅读 3 分钟

9.3k

在Python网络爬虫内容提取器一文我们详细讲解了核心部件：可插拔的内容提取器类gsExtractor。本文记录了确定gsExtractor的技术路线过程中所做的编程实验。这是第二部分，第一部分实验了用xslt方式一次性提取静态网页内容并转换成xml格式。留下了一个问题：javascript管理的动态内容怎样提取？那么本文就回答这个问题。

Python使用xslt提取网页数据

fullerhua

2016-05-12

阅读 5 分钟

5.7k

在Python网络爬虫内容提取器一文我们详细讲解了核心部件：可插拔的内容提取器类gsExtractor。本文记录了确定gsExtractor的技术路线过程中所做的编程实验。这是第一部分，实验了用xslt方式一次性提取静态网页内容并转换成xml格式。

Python即时网络爬虫项目启动说明

fullerhua

2016-05-09

阅读 2 分钟

10.4k

我是对Python存有戒备之心的，想当年我基于Drupal做的系统，使用php语言，当语言升级了，推翻了老版本很多东西，不得不花费很多时间和精力去移植和升级，至今还有一些隐藏在某处的代码埋着雷。我估计Python也避免不了这个问题（其实这种声音已经不少，比如Python 3 正在毁灭 Python）。