使用Python爬取网页的时候,怎么看这个网页需要哪些头部信息呢?

就是我用Python打开一个网页,返回的只是一个由js生成的时间戳。
和真实浏览器返回的不一样,
请问怎么知道这个网页需要知道哪些头部信息呢?

就是类似于 'user‐agent': 'Chrome/10' 这种信息

知道了我才好设置,

其实大家给我一个关键词一个链接我都会去搜,只是现在一头雾水,搜都不会搜,谢谢了。

阅读 2k
3 个回答

打开chrome调试工具,点击network项,刷新网页。然后点开最上面的一条请求,里边request headers内就是请求头信息。一般user-agent和referer比较重要。然后如果需要传params,也要注意一下。

这个貌似没有固定的模式,一般依据浏览器发送的内容作适度删减。

一般是cookie和user‐agent,然后你看其他字段有没有比较特殊的,比如抓取微信读书的时候,他就有一个skey,这个东西肯定有用,不然他不会传过去。
每个网站都不一样,需要一点一点的探索。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
宣传栏