各位前辈大家好,想请教一下爬虫爬取动态网页的问题。
我前端知识不是特别扎实,所以遇到了自己认为比较棘手的问题。
我因为工作需要想抓取一批公示信息,网站地址如下:
http://app1.sfda.gov.cn/datas...
用了splinter直接模拟浏览器,代码如下:
from splinter import Browser
browser = Browser('chrome')
url0 = '''http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=24&tableName=TABLE24&title=GSP%C8%CF%D6%A4&bcId=118715593187347941914723540896'''
browser.visit(url0)
username_input = browser.find_by_xpath('//input[@id="keyword"]')[0]
username_input.type('安徽')
submit_input = browser.find_by_xpath("//input[@name='Submit']")[0]
submit_input.click()
结果是服务器无返回。
我不知道为什么实际点击与splinter模拟操作服务器端可以区别出来。
而且在Chrome里用 F12 调试的时候,过一会儿页面就会出现Paused in debugger,
Sources 会出现一个标签debugger:////VM200
(也可能是其他数字)里面有一段代码var a = new Date(); debugger; new Date() - a > 100;
这是什么原因啊?
请各位指点,谢谢!
用selenium和PhantomJS没啥问题,chrome的F12也很正常。。
结果如下: