已知网站中各月份的链接结构,scrapy要如何爬取?

爬取某网站的公示信息,打开第一页(当月)后,底部的跳转是按月份。

clipboard.png

每一个链接都有相似结构

<a href="/notices/2018/1">1月</a>

请问在scrapy中要如何爬取。

阅读 2.6k
4 个回答

你应该分析html结构和抓取的标签,例如这是一个table(我瞎猜的,嗯)tabody->tr->td->a,然后去使用xpath或者BeautifulSoup4去提取,提取出来的月份链接list,循环遍历这个list产生请求去追踪每个页面。

yield scrapy.Request(url, callback=self.parse_everymonth_content, headers=headers)

先通过 XPath Helper 精确找出要抓取的内容
然后 在Scrapy中操作 接下来还有几个步骤 建议楼主去看一下相关的视频

新手上路,请多包涵

用xpath爬取
response=#整个div
response.xpath('/a/@href')

直接获取整个页面,然后正则匹配呀

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题