在我们利用xpath匹配页面标签时,经常会遇到标签下面还包含标签,但是我们只想取下面的所有文字

例如相匹配图中 div[@class='display-content']下面所有P的文字,此时我们可以利用这个方法

图片描述

直接上代码

def get_details(url):
    text_response = requests.get(link)
    print('编码格式', text_response.encoding)
    encode_rsp = text_response.encoding
    response = text_response.text.encode(encode_rsp).decode('utf-8')
    text = etree.HTML(response)
    tt = text.xpath("//div[@class='display-content']")
    text_info = tt[0].xpath("string(.)")
    return text_info

返回结果如图
图片描述


瑞0908
318 声望77 粉丝

一个一个解决


« 上一篇
Robots协议