Python爬虫教程（二）

开发者社区.png

一、bs4解析介绍

1．bs4解析：BS4全称是Beatiful Soup，它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。
2．HTML：用来描述网页的一种语言。
1）HTML指的是超文本标记语言 (Hyper Text Markup Language)
2）HTML 不是一种编程语言，而是一种标记语言 (markup language)
3）标记语言是一套标记标签 (markup tag)
4）HTML 使用标记标签来描述网页
3.HTML常见标签：
h1：一级标签
h2：二级标签
p：段落
body：主体

二、使用bs4解析实战爬取优美图库图片

1.获取主页面源代码。

2．定位标签，找到主页面源代码中子页面的链接位置。

3.获取子页面下载链接，得到“href”。

4．子页面下载地址不全，进行子页面下载了解拼接补全。，得到完整下载链接。

5.获取子页面源代码。

6.从子页面获取图片下载路径。

7.下载图片，创建文件夹img，将下载图片存入img文件夹中，取名为下载链接最后一部分（唯一）。

三、xpath解析介绍

XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。基于XML的树状结构，提供在数据结构树中找寻节点的能力。
1）XML 指可扩展标记语言（EXtensible Markup Language）
2）XML 是一种标记语言，很类似 HTML
3）XML 的设计宗旨是传输数据，而非显示数据
4）XML 标签没有被预定义。您需要自行定义标签。
5）XML 被设计为具有自我描述性。
1.xpath入门，准备一个节点示例。

2.从节点示例中找到book节点。

3.获取节点实例中name节点下文本。

4.获取author节点下所有的nick节点的文本，示例中存在author节点下的nick节点以及author节点下div中的nick节点，下面将全部内容进行输出。

5.常见的命令
//：当前目录中后面所有节点
*：通配符
@：属性
[]：表示索引
[1]：第一条（xpath顺序是从1开始计算）
[@xx=’xxx’] ：表示属性的筛选
./：表示当前节点，相对查找