使用Jsoup解析网易新闻网页,新闻的正文,标题内容都可以获取;
但是评论区的内容,什么都没有,是不是评论区有特殊的限制呢?
String str=GetUtil.getContent("http://sports.163.com/18/0207/09/DA1HPMLI00058781.html");
//System.out.println(str);
Document doc=Jsoup.parse(str);
Element element=doc.getElementById("epContentLeft");
Elements elements=element.getElementsByTag("h1");
System.out.println("标题: "+elements.text());
Elements elementss=doc.getElementsByClass("post_time_source");
System.out.println("发帖时间: "+elementss.text().substring(0,19));
element=doc.getElementById("endText");
System.out.println("正文:");
System.out.println(element.text());
elementss=doc.getElementsByClass("ep-source cDGray");
System.out.println(elementss.text());
//抓取评论
elementss=doc.getElementsByClass("tie-cnt");
//tie-cnt
System.out.println("跟帖 :"+elementss.text());
做爬虫,要先确认内容是不是动态加载的,你右键查看页面源码,搜索任意一条评论区的评论,你会发现什么都没有。
你需要查看它加载评论的方式和接口,才能获取到数据。