【求助】如何获取这个网站的数据，加入了反爬，有难度

2.test.py代码如下：

#-*- coding: UTF-8 -*-
import urllib
import urllib2

print "======================="

url="http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886909015737447882";


headers = {
    'Host':'app1.sfda.gov.cn',
    'Referer':'http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886909015737447882',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER',
};

values = {};
values['tableId']='25';
values['tableName']='TABLE25';
values['title']='%B9%FA%B2%FA%D2%A9%C6%B7';
values['bcId']='124356560303886909015737447882';

data = urllib.urlencode(values) 

request = urllib2.Request(url,data,headers)
response = urllib2.urlopen(request)
print response.read()


print "======================="

3.运行test.py后，获取不到数据
图片描述

尝试了使用phantomjs模拟浏览器同样抓不到，求助大家了？

phantomjs

python selenium

阅读 4.2k

4 个回答

得票最新

prolifes

11.2k51537

发布于
2017-08-29

这是用了js混淆，参考文章：http://www.bijishequ.com/deta...
你可以使用selenium来获取源码

from selenium import webdriver

url = 'http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886909015737447882'

wd = webdriver.Chrome()
wd.get(url)
print wd.page_source

nemesiszh

3678108152

发布于
2017-08-30

更新于
2017-08-30

@prolifes
感谢prolifes的回复，测试成功！
还有个问题，还请麻烦再过目下！
如图：
图片描述

如何能在打开首页后，并一页一页的翻页进行下去？谢谢

自己尝试点击下一页，但是获取不到数据

links = browser.find_elements_by_tag_name("img")
links[77].click()

图片描述

什么味道

9116

发布于
2017-08-30

更新于
2017-08-30

用Chrome的网络工具监视一下点击下一页的网络动作，就会发现翻页是post一个form。curstart是页码。

tableId:25
State:1
bcId:124356560303886909015737447882
State:1
curstart:3
State:1
tableName:TABLE25
State:1
viewtitleName:COLUMN167
State:1
viewsubTitleName:COLUMN821,COLUMN166,COLUMN170
State:1
tableView:%E5%9B%BD%E4%BA%A7%E8%8D%AF%E5%93%81
State:1

浏览器里面测试没问题啊，你是不是没有给post的数据设置请求头为FormData？

var data={tableId:25,
State:1,
bcId:124356560303886909015737447882,
curstart:3,
tableName:'TABLE25',
viewtitleName:'COLUMN167',
viewsubTitleName:['COLUMN821','COLUMN166','COLUMN170'],
tableView:'%E5%9B%BD%E4%BA%A7%E8%8D%AF%E5%93%81'}

var formData='';
var request = new XMLHttpRequest();
request.open("POST", "search.jsp",false);
request.setRequestHeader("Content-Type","application/x-www-form-urlencoded");
for(let x in data){
    formData+=`${x}=${data[x]}&`
}
request.send(formData);
console.log(request.responseText);

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

【求助】如何获取这个网站的数据，加入了反爬，有难度

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Spark-TTS-0.5B 的 requirements.txt 在哪里？