第一次写爬虫想爬取马蜂窝首页上的游记,遇到一点问题。
如下图1.1想主要爬取首页上的热门游记。
图1.1
通过Chrome控制台得到了异步加载的页面的地址,这里没主要需要一个两个参数,一个是 page的页数,另外一个是152开头的一串数字,page的页面是有规律的,问题在于后面的参数,没有发现可以寻迹的规律。
图1.2
猜想是在js中随机生成的,在event的代码中也没有找到对应的代码。
图1.3
基本到这里卡住了,关于获取152开头的数字有没有其他方式呢?
第一次写爬虫想爬取马蜂窝首页上的游记,遇到一点问题。
如下图1.1想主要爬取首页上的热门游记。
图1.1
通过Chrome控制台得到了异步加载的页面的地址,这里没主要需要一个两个参数,一个是 page的页数,另外一个是152开头的一串数字,page的页面是有规律的,问题在于后面的参数,没有发现可以寻迹的规律。
图1.2
猜想是在js中随机生成的,在event的代码中也没有找到对应的代码。
图1.3
基本到这里卡住了,关于获取152开头的数字有没有其他方式呢?
import time
base_url = ''
url = '{}&_={}'.format(base_url, int(time.time()*1000))
不加一般应该也是可以的。
2 回答5.2k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1.4k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
2 回答895 阅读✓ 已解决
1 回答1.8k 阅读✓ 已解决
152..那个是时间戳,精确到毫秒的。
callback是jsonp跨域请求自动生成的。你需要伪装成一个jsonp的请求。
或者 你不带callback试试,因为跨域限制只在浏览器。试一下它后端是否支持普通的API请求。