爬取马蜂窝首页的热门游记遇到分页请求参数的问题?

第一次写爬虫想爬取马蜂窝首页上的游记,遇到一点问题。
如下图1.1想主要爬取首页上的热门游记。
clipboard.png
图1.1

通过Chrome控制台得到了异步加载的页面的地址,这里没主要需要一个两个参数,一个是 page的页数,另外一个是152开头的一串数字,page的页面是有规律的,问题在于后面的参数,没有发现可以寻迹的规律。
clipboard.png
图1.2

猜想是在js中随机生成的,在event的代码中也没有找到对应的代码。
clipboard.png
图1.3

基本到这里卡住了,关于获取152开头的数字有没有其他方式呢?

阅读 4.3k
4 个回答

152..那个是时间戳,精确到毫秒的。
callback是jsonp跨域请求自动生成的。你需要伪装成一个jsonp的请求。
或者 你不带callback试试,因为跨域限制只在浏览器。试一下它后端是否支持普通的API请求。

这个应该是个时间戳

import time

base_url = ''
url = '{}&_={}'.format(base_url, int(time.time()*1000))

不加一般应该也是可以的。

新手上路,请多包涵

你好,我是个外行,做旅游的,我想问下您是可以通过这种方式让马蜂窝游记上热门吗

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题