Python爬虫实战（3）：安居客房产经纪人信息采集

图片描述

1，引言

Python开源网络爬虫项目启动之初，我们就把网络爬虫分成两类：即时爬虫和收割式网络爬虫。为了使用各种应用场景，该项目的整个网络爬虫产品线包含了四类产品，如下图所示：
图片描述
本实战是上图中的“独立python爬虫”的一个实例，以采集安居客房产经纪人(http://shenzhen.anjuke.com/tycoon/nanshan/p1/ )信息为例，记录整个采集流程，包括python和依赖库的安装，即便是python初学者，也可以跟着文章内容成功地完成运行。

2，Python和相关依赖库的安装

运行环境：Windows10

2.1，安装Python3.5.2

官网下载链接: https://www.python.org/ftp/python/3.5.2/python-3.5.2.exe
下载完成后，双击安装。
这个版本会自动安装pip和setuptools，方便安装其它的库

2.2，Lxml 3.6.0

Lxml官网地址: http://lxml.de/
Windows版安装包下载: http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
对应windows下python3.5的安装文件为 lxml-3.6.0-cp35-cp35m-win32.whl
下载完成后，在windows下打开一个命令窗口,，切换到刚下载的whl文件的存放目录，运行pip install lxml-3.6.0-cp35-cp35m-win32.whl

2.3，下载网页内容提取器程序

网页内容提取器程序是GooSeeker为开源Python即时网络爬虫项目发布的一个类，使用这个类，可以大大减少信息采集规则的调试时间，具体参看《Python即时网络爬虫项目: 内容提取器的定义》

下载地址: https://github.com/FullerHua/gooseeker/blob/master/core/gooseeker.py
把gooseeker.py保存在项目目录下

3，网络爬虫的源代码

# _*_coding:utf8_*_
# anjuke.py
# 爬取安居客房产经纪人

from urllib import request
from lxml import etree
from gooseeker import GsExtractor

class Spider:
    def getContent(self, url):
        conn = request.urlopen(url)
        output = etree.HTML(conn.read())
        return output

    def saveContent(self, filepath, content):
        file_obj = open(filepath, 'w', encoding='UTF-8')
        file_obj.write(content)
        file_obj.close()

bbsExtra = GsExtractor() 
# 下面这句调用gooseeker的api来设置xslt抓取规则
# 第一个参数是app key，请到GooSeeker会员中心申请
# 第二个参数是规则名，是通过GooSeeker的图形化工具: 谋数台MS 来生成的
bbsExtra.setXsltFromAPI("31d24931e043e2d5364d03b8ff9cc77e" , "安居客房产经纪人")  

url = "http://shenzhen.anjuke.com/tycoon/nanshan/p"
totalpages = 50
anjukeSpider = Spider()
print("爬取开始")

for pagenumber in range(1 , totalpages):
    currenturl = url + str(pagenumber)
    print("正在爬取", currenturl)
    content = anjukeSpider.getContent(currenturl)
    outputxml = bbsExtra.extract(content)
    outputfile = "result" + str(pagenumber) +".xml"
    anjukeSpider.saveContent(outputfile , str(outputxml))

print("爬取结束")

运行过程如下:

将上面的代码保存到anjuke.py中，和前面2.3步下载的提取器类gooseeker.py放在同一个文件夹中
打开Windows CMD窗口，切换当前目录到存放anjuke.py的路径(cd xxxxxxx)
运行 python anjuke.py

请注意：为了让源代码更整洁，也为了让爬虫程序更有通用性，抓取规则是通过api注入到内容提取器bbsExtra中的，这样还有另外一个好处：如果目标网页结构变化了，只需通过MS谋数台重新编辑抓取规则，而本例的网络爬虫代码不用修改。为内容提取器下载采集规则的方法参看《Python即时网络爬虫：API说明》。

4，爬虫结果

在项目目录下可以看到多个result**.xml文件，文件内容如下图所示：

5，总结

因为信息采集规则是通过api下载下来的，所以，本案例的源代码显得十分简洁。同时，整个程序框架变得很通用，因为最影响通用性的采集规则是从外部注入的。

6，集搜客GooSeeker开源代码下载源

GooSeeker开源Python网络爬虫GitHub源

7，文档修改历史

2016.07.11：V1.0

Python爬虫实战（3）：安居客房产经纪人信息采集

1，引言

2，Python和相关依赖库的安装

3，网络爬虫的源代码

4，爬虫结果

5，总结

6，集搜客GooSeeker开源代码下载源

7，文档修改历史

fullerhua

引用和评论

深圳市咨询投诉分析

怎么来爬取代理服务器ip地址？（python）

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

Python3 格式化时间（qbit）

本地使用PaddleOCR进行图片识别获得文字（返回JSON）

Python爬虫实战（3）：安居客房产经纪人信息采集

1， 引言

2，Python和相关依赖库的安装

3，网络爬虫的源代码

4，爬虫结果

5，总结

6，集搜客GooSeeker开源代码下载源

7，文档修改历史

fullerhua

引用和评论

深圳市咨询投诉分析

怎么来爬取代理服务器ip地址？（python）

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

Python3 格式化时间（qbit）

本地使用PaddleOCR进行图片识别获得文字（返回JSON）

1，引言