网络爬虫,需要抓取的内容不在源代码中,网页中点击右键另存为可以看到需要抓取的内容。

新手上路,请多包涵

F12,network/XHR,中显示的各个URL,对应的response也看不到我要的内容。

初始网址是:http://tspwebtools.stage.xcha... me,我需要的信息就会出现在下方。

image.png

但是在XHR中的所有URL中,找不到我想要的内容。
在网页源代码中,没有显示完整。如下图,要提取的内容为下划线部分。
image.png

阅读 4.9k
2 个回答

浏览器的查看源代码功能,只能看到服务端返回的静态页面,如果用JS又修改了DOM,查看源代码那里是不会更新的。

所以如果想获取这部分数据,要么通过一些模拟浏览器的库去做。比如selenium/phantomjs之类的,要么就分析源码,看看数据是怎么加载的,分析接口了……

这不是没有显示完整,只是AngularJS框架下显示的表达式而已..爬这种现代框架下的动态生成网站一般有两种方式,要么是渲染后爬取,比如什么phantomjs、chromedp、selenium,要么扒源代码找。你这个页面看上去应该没有加密,数据源就是tempShowData数组中的processParams,在加载的几个js里搜一搜,或者挂个断点找找就行了。
另外你这个站我进不去 挂梯子也不行,没法帮看了。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题