已知网站中各月份的链接结构，scrapy要如何爬取？

发布于
2018-02-26

爬取某网站的公示信息，打开第一页（当月）后，底部的跳转是按月份。

每一个链接都有相似结构

<a href="/notices/2018/1">1月</a>

请问在scrapy中要如何爬取。

python scrapy

阅读 2.6k

4 个回答

得票最新

亡灵法

172

发布于
2018-02-26

✓ 已被采纳

你应该分析html结构和抓取的标签，例如这是一个table（我瞎猜的，嗯）tabody->tr->td->a，然后去使用xpath或者BeautifulSoup4去提取,提取出来的月份链接list,循环遍历这个list产生请求去追踪每个页面。

yield scrapy.Request(url, callback=self.parse_everymonth_content, headers=headers)

瑞0908

3211121

发布于
2018-02-26

先通过 XPath Helper 精确找出要抓取的内容
然后在Scrapy中操作接下来还有几个步骤建议楼主去看一下相关的视频

Captain

发布于
2018-03-03

新手上路，请多包涵

用xpath爬取
response=#整个div
response.xpath('/a/@href')

漏三刀

75312

发布于
2018-03-03

直接获取整个页面，然后正则匹配呀

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

已知网站中各月份的链接结构，scrapy要如何爬取？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

已知网站中各月份的链接结构，scrapy要如何爬取？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？