爬虫系列-----抓包并爬取图片和源代码

@[toc]

1.学习老师的云开发可以加老师微信：JL1714873054获取课程。

在这里插入图片描述
2.0基础入门微信小程序可以加老师微信：JL1714873054获取课程。

3.微信小程序高级知识学习可以加老师微信：JL1714873054获取课程。

4.C语言0基础入门学习可以加老师微信：JL1714873054获取课程。

5.手机app开发入门学习可以加老师微信：JL1714873054获取课程。
在这里插入图片描述

课程特色：

配套笔记
项目视频
不懂的地方可以随时咨询老师
配套错误解决方案
咨询运维方案

绪论

这节课给大家讲解关于python爬虫的内容。python的强大之处在于它的三方类库。我们今天要实现的目标就是爬取昵图网上的图片以及该网站的源代码。

一.类库的引入

我们在这里要用到的类库是requests和re.首先定义要爬取的地址:

url='http://www.nipic.com/photo/jingguan/ziran/index.html'

将爬取的网站源码存到变量data中：

data = requests.get(url).text

并做打印处理：

print("网站源码", data)

我们在爬取源代码和打印上就算大功告成了，代码量很少。

二.定义过滤规则

定义规则采取的是正则表达式，筛选出有图片格式的数据文件。
【不懂正则表达？？】------->点击传送门《正则表达有关知识概念》
首先观察我们要爬取的网站图片信息，图片属于.jpg
在这里插入图片描述
我们最后的过滤条件就是

r'data-src="(.*?.jpg)"'

接着创建一个pa模板，使其符合匹配的网址，进行过滤：

pa = re.compile(regex)

findall 方法找到data中所有的符合pa的对象，添加到re中并返回

ma = re.findall(pa, data)

三.图片的保存与提取

图片被我们存到了ma中，接下来就是进行提取了，我们用一个for循环就可以搞定

i=0
for image in ma:
    i += 1

利用我们之前引入的类库进行提取：

image = requests.get(image).content

在本地项目新建存储图片的文件夹imgs，将抓包爬取到的图片存储到我们的文件夹中

with open('imgs/' + str(i) + '.jpg', 'wb') as f:

四.完成爬取

在这里插入图片描述

爬虫系列-----抓包并爬取图片和源代码

绪论

一.类库的引入

二.定义过滤规则

三.图片的保存与提取

四.完成爬取

Jackie豪

引用和评论

【万字长文】大模型开源开发全景与趋势解读

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略