如何从一份html源码中提取相应代码块的Xpath

新手上路,请多包涵

工作中需要对网站某块区域的数据进行抓取,我想的方案就是用xpath取到网站某块区域的源码,再进行正则匹配。

现在遇到的问题是,有些网站经过javascript处理后,整个结构都变了,而Chrome的开发者工具以及Firebug取得的Xpath都是解析了javascript后的结果。
我在stackoverflow找到了一种方案(点这),但这种方案鲁棒性比较低,对于不规范的html,程序直接崩溃掉。
不知道各位有没有什么好的方案或者工具,可以直接提供一份html页面源码,就可以提取指定区域的Xpath。

阅读 4.9k
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进