java爬取js动态加载的内容

在写爬虫的时候需要下载一个页面上的附件，比如http://www.jsqts.gov.cn/zjxx/... 这个网站上面的附件，但是直接用jsoup抓取页面的话html里什么都没有，百度了之后知道好多内容是js动态加载的，于是使用了httpunit，模拟浏览器执行完js，但是返回的页面还是不包含附件信息，代码如下：

String url = "http://www.jsqts.gov.cn/zjxx/GovInfoPub/Department/showinfo.aspx?InfoID=4a6f06c1-2a1b-40f9-bbfe-caafc0100428&CategoryNum=001010";
WebClient webClient = new WebClient(BrowserVersion.CHROME);
//设置webClient的相关参数
webClient.getOptions().setThrowExceptionOnScriptError(false);
webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
webClient.getOptions().setJavaScriptEnabled(true);
webClient.getOptions().setActiveXNative(false);
webClient.getOptions().setCssEnabled(false);
webClient.waitForBackgroundJavaScript(600*1000);
webClient.setAjaxController(new NicelyResynchronizingAjaxController());
//模拟浏览器打开一个目标网址
HtmlPage rootPage = webClient.getPage(url);
System.out.println("为了获取js执行的数据 线程开始沉睡等待");
Thread.sleep(1000);//主要是这个线程的等待 因为js加载也是需要时间的
System.out.println("线程结束沉睡");
String xml = rootPage.asXml();
System.out.println(xml.contains("2016年三季度省级工业产品监督检查结果 .xls"));//false

请教大佬们

阅读 8.8k

java爬取js动态加载的内容

你尚未登录，登录后可以

js 如何将Key属性相同的放在同一个数组？

Next.js做纯前端是否可行？

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

如何实现一个深拷贝函数？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

git提交记录问题？