nodejs抓取网站的翻页判断和言语判断问题.

阅读 3k
3 个回答

问题关闭...

在post的时候,form里面有几个关键性的数据,是放在也没的hidden变量里面,指定了这些变量应该就能解决.

右上角有个切换语言的,看一下代码,是调用了这个函数:
function __doPostBack(eventTarget, eventArgument) {

if (!theForm.onsubmit || (theForm.onsubmit() != false)) {
    theForm.__EVENTTARGET.value = eventTarget;
    theForm.__EVENTARGUMENT.value = eventArgument;
    theForm.submit();
}

}

其实就是提交了一下表单,
而表单是有post的方式发送的原页面
所以,你点击后会看到页面有闪一下,但网址并没有变化。
所以,如果你要英文版的,post方式传参数:__EVENTTARGET="ctl00$ctl00$lBtnUSA"过去就可以获得英文版的页面。

获取页面内的url,去解析dom就行了。

获取页面中的url的方法:

var jsdom = require("jsdom");
 
jsdom.env({
  url: "http://www.everlight.com/newsdetail.aspx?pcseq=4&cseq=7&seq=291",
  scripts: ["http://code.jquery.com/jquery.js"],
  done: function (err, window) {
    var $ = window.$;
    console.log("HN Links");
    $("a").each(function() {
      //console.log(" -", $(this).text());
      var tmp=$(this).text()+"---"+$(this).attr("href");
      console.log(tmp);
    });
  }
});

这个还是分析一下request 中的header信息吧,里面有一项是可以利用设置语言的
图片描述

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题