scrapy如何获取超链接中的文字

我想用scrapy爬取自己csdn上的所有博客，但是遇到置顶的这个文章就不知道怎么处理了。

HTML代码如下。span里面有一个红色的font，这种情况下应该如何忽略这个置顶而获取链接其他部分的文字呢？

<a href="/u011054333/article/details/49305291">
        <font color="red">[置顶]</font>
        计算机专业学生必看！各个公司的学生优惠活动            
        </a>

阅读 7.7k

4 个回答

得票最新

✓ 已被采纳

可以先提取<span>,如果能提取到那么就是置顶,用if判断一下就可以,如果你想直接用xpath智能帮你去掉这个置顶标签的话暂时也不清楚能不能做到

response.xpath("//a//text()")[1].extract()

/a/@href 好像是这么写的

写两次正则，第一次匹配a标签所有链接，第二次正则，去掉a标签内容里面的font标签

撰写回答

推荐问题

相似问题

找不到问题？创建新问题