xpath 如何抓取 <div> 下所有 <p> 里的内容?

比如

<p> 第一段 <span> 第二段 </span> 第三段 </p>

我想照着原格式(包含空格)不变的抓取文本内容,但是用 test 方法只能抓到 第一段三个字,该怎么做?

阅读 16.3k
1 个回答

你可以这么写。

items = html.xpath('//div/p')[0] #获取<p>标签下的所有内容
item = items.xpath('string(.)') #用正则表达式匹配字符串

这样就可以获取<p>下的所有字段内容了,保留空格和换行符,那如果你想去掉换行符的话,再加一句,

 content = item.replace('\n','')
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
宣传栏