我正在学习使用Knime。一个功能丰富但是不常被人知道的软件。
这个软件集合了htmlparser和xpath的功能,所以我想通过这个软件来做网页的数据挖掘。
在尝试抓取<p>
里面的文字时遇到了不明白的问题。
如果我写//h:p 按理说应该抓取到网页中所有的<p>...</p>
中的内容
但
返回给我的结果只有第一个自然段(第一组<p>...</p>
)
请问怎样才能抓出所有的<p>
tag???
使用的网站链接:http://www.cmt.com.cn/detail/504557.html
非常感谢愿意帮助解答的朋友!!
——————————————————————————————————————————
我尝试过了
//h:div/h:p
//h:/h:p
//h:p[@]
//p
等等的各种组合 都没能达到抓取全部内容的效果
包括从上一级写起//h:div[@class="newstextco"] -->这个干脆没有返回值