<html>
<head>
<meta name="generator" content="HTML Tidy for HTML5 for Windows version 5.2.0" />
<title></title>
</head>
<body>
<div data-id="1">
<h4 class="headline">Title</h4>
内容1
<br />
内容2
<div class="foot" >
内容3
</div>
</div>
</body>
</html>
请教下如何能够便利的提取title和内容1/2,但是不会提取foot下面的内容,希望不使用正则。
不知道该如何对这种问题起合适的名字,抱歉。
我尝试了下用xpath的string,jquery/BS,提取最外层的div节点。
虽然能够帮我去除br,但是也会把foot下的内容3也提取了出来.
这种内容不在特定的标签下,又和其他标签混在一层的情况让我觉得很棘手,
最好希望能获得一种xpath,或者jquery的实现。感谢
从data div的dom里先把foot div这个元素remove掉,然后再获取text就可以了