scrapy爬取小说，请问怎么组织元素的表达式？

新手上路，请多包涵

我最近在学爬虫，我想爬取这类a标签的信息，但我不知道XPATH/CSS表达式怎么写，附上网址和贴图
网址：http://www.b5200.net/paihangb...

请各位帮忙看看，有谁知道的麻烦告诉我一下

相关代码如下：

def parse(self,response):
   item = BiqugeItem()
   stories = response.xpath(xxx)
   for story in stories:
       item['name'] = story.xpath(xxx)

阅读 2k

2 个回答

得票最新

✓ 已被采纳

右击元素，COPY->XPATH

可以看到xpath表达式是//*[@id="main"]/div[2]/ul[1]/li[2]/a
把他独特性的数字标识给去了，就是//*[@id="main"]/div/ul/li/a
根据这个就能筛选出这一类的元素，组成一个列表，然后挨个拿信息就信了

这种你需要借助上一层来判断，比如 class="box"。

然后下面的所有 //li/a/text() 但是要排除 class="title"和class="more"的节点；或者也可以最终在标题处，排除相应的标题，例如周、月、日等。

撰写回答

推荐问题

相似问题

找不到问题？创建新问题