xiaolinBot（Twitter笑话集锦爬虫Bot） Step1－最简爬虫

Step1 - 最简爬虫

环境准备

Python3.5 最好使用venv

另外需要两个必要的库：

requests : 一个封装了HTTP服务的python库
pyquery : 类似Jquery，使用非常方便

$ pip install requests
$ pip install pyquery

开始

实现第一个应用

我们第一个应用实现的功能主要如下：

访问一个页面,这里我们以糗事百科(http://www.qiushibaike.com/) 为例
获得页面的内容
进行简单的处理，获得我们需要的内容


import requests
from pyquery import PyQuery as pq

__author__ = 'BONFY CHEN <foreverbonfy@163.com>'


SITE = 'http://www.qiushibaike.com/'
r = requests.get(SITE)
assert r.status_code == 200
d = pq(r.text)
contents = d("div .article")
for item in contents:
    i = pq(item)
    content = i("div .content").text()
    print(content)

结果

简单分析

利用 requests.get 获得页面
assert 断言，如果网络问题访问不到就退出
contents 利用 pyquery 获得所有文章后续读取 div class ＝ "content" 的为文本内容（这里没有处理图片后续的讲解中会完善）
print 输出

完整代码

补充模仿浏览器的Headers,详情见 https://github.com/bonfy/xiaolinBot

欢迎关注及一起交流

请期待下一篇：代码优化

xiaolinBot（Twitter笑话集锦爬虫Bot） Step1－最简爬虫

Step1 - 最简爬虫

环境准备

开始

实现第一个应用

结果

简单分析

完整代码

bonfy

引用和评论

Go-Mega Tutorial 01 - Hello World

Anaconda安装教程以及Anaconda和pip配置国内镜像

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践

pip安装报错：No such file or directory 'conda-forge' 没有那个文件或目录

科学计算编程涉及到的技术栈简介

Python 描述符

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时