如题,抓取的时候发现现在很多网站为了效果,一些数据都是用js来渲染,比如下拉加载。
这种情况如果抓取的话,是怎么解决的呢?
看网上有人说用HtmlUnit
,这个貌似最多只能抓取js渲染出来的数据,解决不了下拉加载的问题。
难道真的要对不同的页面进行有针对性的分析,然后解析url,或者ajax的请求?
oh,My God!
有没有大牛有更好的解决方案,或者成熟的抓取框架?
已有类似问题:
【PHP】【.NET】【JS】【AJAX】关于抓取网页源代码的问题
http://segmentfault.com/q/1010000000581910
可以在headless的浏览器运行网页的JS代码,在原有网页上注入相应的JS代码来显示隐藏的内容.相关回答: