veve的极客之路 - SegmentFault 思否

获取贴吧图片的python爬虫

2016-01-14

阅读 3 分钟

5.2k

经过前两篇文章 [链接] 和 [链接]的测试，决定实现以下功能：给定感兴趣的贴吧首页，自动获取帖子的链接进入获取到的链接中，将帖子内的图片链接提取出来按照帖子的ID建文件夹，将帖子内图片的链接下载为图片保存到文件夹中实现过程：获取帖子列表以百度贴吧“壁纸吧”为例[链接]，通过分析该网页源代码，发现：每一...

获取百度贴吧头像的爬虫

vvzvv

2016-01-11

阅读 3 分钟

4.6k

在上一篇文章的基础上增加获取百度贴吧的头像图片的功能，使用到的技术为XPath，Requests，具体实现如下： 1. 查看网页源代码测试网页链接：[链接] 通过Chrome定位头像的HTML的代码每一楼层的标签是： {代码...} 从楼层开始，直到定位到照片顺序应该是 2. 提取XPath信息通过XPath一步步获取到<img>这一层，提取到...

学习极客学院多线程爬虫课程的收获

vvzvv

2016-01-07

阅读 4 分钟

3.4k

昨天开始了极客学院《XPath与多线程爬虫》课程的学习，主要涉及到XPath和requests的使用，在测试过程中出现了很多问题，经过不断摸索以及前辈们的帮助，现将经验总结如下：1. Python3下面文本编码问题虽然Python3相对于2已经集成了很多编码方式，使我们不需要过多去关心和指定编码，但有时候在文本读取，写入的时候还是...