@[toc]
1.学习老师的云开发可以加老师微信:JL1714873054获取课程。
2.0基础入门微信小程序可以加老师微信:JL1714873054获取课程。
3.微信小程序高级知识学习可以加老师微信:JL1714873054获取课程。
4.C语言0基础入门学习可以加老师微信:JL1714873054获取课程。
5.手机app开发入门学习可以加老师微信:JL1714873054获取课程。
课程特色:
- 配套笔记
- 项目视频
- 不懂的地方可以随时咨询老师
- 配套错误解决方案
- 咨询运维方案
绪论
这节课给大家讲解关于python
爬虫的内容。python
的强大之处在于它的三方类库。我们今天要实现的目标就是爬取昵图网上的图片以及该网站的源代码。
一.类库的引入
我们在这里要用到的类库是requests
和re
.首先定义要爬取的地址:
url='http://www.nipic.com/photo/jingguan/ziran/index.html'
将爬取的网站源码存到变量data
中:
data = requests.get(url).text
并做打印处理:
print("网站源码", data)
我们在爬取源代码和打印上就算大功告成了,代码量很少。
二.定义过滤规则
定义规则采取的是正则表达式,筛选出有图片格式的数据文件。
【不懂正则表达??】------->点击传送门《正则表达有关知识概念》
首先观察我们要爬取的网站图片信息,图片属于.jpg
我们最后的过滤条件就是
r'data-src="(.*?.jpg)"'
接着创建一个pa
模板,使其符合匹配的网址,进行过滤:
pa = re.compile(regex)
findall
方法找到data
中所有的符合pa的对象,添加到re
中并返回
ma = re.findall(pa, data)
三.图片的保存与提取
图片被我们存到了ma
中,接下来就是进行提取了,我们用一个for
循环就可以搞定
i=0
for image in ma:
i += 1
利用我们之前引入的类库进行提取:
image = requests.get(image).content
在本地项目新建存储图片的文件夹imgs
,将抓包爬取到的图片存储到我们的文件夹中
with open('imgs/' + str(i) + '.jpg', 'wb') as f:
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。