请教一种情况下html内容读取的方法

<html>
  <head>
    <meta name="generator" content="HTML Tidy for HTML5 for Windows version 5.2.0" />
    <title></title>
  </head>
  <body>
    <div data-id="1">
        <h4 class="headline">Title</h4>
        内容1
        <br />
        内容2
        <div class="foot" >
            内容3
        </div>
    </div>

  </body>
</html>

请教下如何能够便利的提取title和内容1/2,但是不会提取foot下面的内容,希望不使用正则。
不知道该如何对这种问题起合适的名字,抱歉。

我尝试了下用xpath的string,jquery/BS,提取最外层的div节点。
虽然能够帮我去除br,但是也会把foot下的内容3也提取了出来.
这种内容不在特定的标签下,又和其他标签混在一层的情况让我觉得很棘手,

最好希望能获得一种xpath,或者jquery的实现。感谢

阅读 1.5k
1 个回答

从data div的dom里先把foot div这个元素remove掉,然后再获取text就可以了

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题