SF
veve的极客之路
veve的极客之路
注册登录
关注博客
注册登录
主页
关于
RSS
获取贴吧图片的python爬虫
vvzvv
2016-01-14
阅读 3 分钟
5.2k
经过前两篇文章 [链接] 和 [链接]的测试,决定实现以下功能: 给定感兴趣的贴吧首页,自动获取帖子的链接 进入获取到的链接中,将帖子内的图片链接提取出来 按照帖子的ID建文件夹,将帖子内图片的链接下载为图片保存到文件夹中 实现过程: 获取帖子列表以百度贴吧“壁纸吧”为例[链接],通过分析该网页源代码,发现: 每一...
获取百度贴吧头像的爬虫
vvzvv
2016-01-11
阅读 3 分钟
4.6k
在上一篇文章的基础上增加获取百度贴吧的头像图片的功能,使用到的技术为XPath,Requests,具体实现如下: 1. 查看网页源代码测试网页链接:[链接] 通过Chrome定位头像的HTML的代码 每一楼层的标签是: {代码...} 从楼层开始,直到定位到照片顺序应该是 2. 提取XPath信息通过XPath一步步获取到<img>这一层,提取到...
学习极客学院多线程爬虫课程的收获
vvzvv
2016-01-07
阅读 4 分钟
3.4k
昨天开始了极客学院《XPath与多线程爬虫》课程的学习,主要涉及到XPath和requests的使用,在测试过程中出现了很多问题,经过不断摸索以及前辈们的帮助,现将经验总结如下:1. Python3下面文本编码问题虽然Python3相对于2已经集成了很多编码方式,使我们不需要过多去关心和指定编码,但有时候在文本读取,写入的时候还是...