如图,有什么便捷的Xpath方法获取未闭合标签下的信息呢?
附上自己的代码
html = requests.get('https://movie.douban.com/top250').text
tree = lxml.html.fromstring(html)
data = tree.xpath("//ol/li[1]//div[@class='bd']/p")[0].text
print(data)
#导演: 弗兰克·德拉邦特 Frank Darabont 主演: 蒂姆·罗宾斯 Tim Robbins /...
data = tree.xpath("//ol/li[1]//div[@class='bd']/p/br")[0]
print(data)
#<Element br at 0x2c7d86cdb38>
#但如果加上.text则输出None
data = tree.xpath("//ol/li[1]//div[@class='bd']/p")[0].xpath('string(.)')
#导演: 弗兰克·德拉邦特 Frank Darabont 主演: 蒂姆·罗宾斯 Tim Robbins /...
1994 / 美国 / 犯罪 剧情
虽然'string(.)'能获取标签下所有文本,但有没有什么办法能单独获取br标签后的内容呢?
把<p>里面的内容整个提取出string来后用re提取。