使用webmagic爬取标题

Question

使用webmagic爬取标题

发布于
2019-01-28

我现在有个项目需要用到webmagic进行爬取标题，但是这个网站的标题有两种格式的样式图片描述因为第一次写爬虫，也是第一次用这个框架，所以不是很懂怎么去写他的xpath

如果只是设置xpath("//div[@class="title"]/text()"),只能得到第二中的标题文本
第一种样式的有的标题甚至有3个<span>标签，所以我只能一个个写出来在拼接，但是这种明显不使用，
还试过使用css("div.title")会得到整个<div>标签的内容
图片描述，但是还要在外面重新获取文本在拼接，很麻烦，而且还会得到首页大标题，
这不是我需要的