scrapy爬取小说,请问怎么组织元素的表达式?

新手上路,请多包涵

我最近在学爬虫,我想爬取这类a标签的信息,但我不知道XPATH/CSS表达式怎么写,附上网址和贴图
网址:http://www.b5200.net/paihangb...
clipboard.png
请各位帮忙看看,有谁知道的麻烦告诉我一下

相关代码如下:

def parse(self,response):
   item = BiqugeItem()
   stories = response.xpath(xxx)
   for story in stories:
       item['name'] = story.xpath(xxx)

阅读 2k
2 个回答

右击元素,COPY->XPATH

clipboard.png
可以看到xpath表达式是//*[@id="main"]/div[2]/ul[1]/li[2]/a
把他独特性的数字标识给去了,就是//*[@id="main"]/div/ul/li/a
根据这个就能筛选出这一类的元素,组成一个列表,然后挨个拿信息就信了

clipboard.png

这种你需要借助上一层来判断,比如 class="box"。

clipboard.png

然后下面的所有 //li/a/text() 但是要排除 class="title"和class="more"的节点;或者也可以最终在标题处,排除相应的标题,例如 周、月、日 等。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题