scrapy如何获取超链接中的文字

我想用scrapy爬取自己csdn上的所有博客,但是遇到置顶的这个文章就不知道怎么处理了。

HTML代码如下。span里面有一个红色的font,这种情况下应该如何忽略这个置顶而获取链接其他部分的文字呢?

<a href="/u011054333/article/details/49305291">
        <font color="red">[置顶]</font>
        计算机专业学生必看!各个公司的学生优惠活动            
        </a>
        
阅读 7.6k
4 个回答

可以先提取<span>,如果能提取到那么就是置顶,用if判断一下就可以,如果你想直接用xpath智能帮你去掉这个置顶标签的话暂时也不清楚能不能做到

response.xpath("//a//text()")[1].extract()

/a/@href 好像是这么写的

写两次正则,第一次匹配a标签所有链接,第二次正则,去掉a标签内容里面的font标签

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题