爬取新浪微博需要登陆问题

xuesu

3023

发布于
2015-08-15

更新于
2015-08-15

比如我已经在浏览器上登陆过了,但是爬取网页的时候还需要再登陆一次.

求问:
1.这和cookies有关么?
2.如果有关的话,那么这边明明已经登陆了为什么不可以公用呢?
3.如果和cookies无关,到底为什么呢....
ps:只是为了做一些学校项目的分析需要用到一些微博文本

网页爬虫 cookies

阅读 8.3k

8 个回答

得票最新

JamesWang

421

发布于
2015-09-28

✓ 已被采纳

我试过cookie模拟登陆微博，是可行的哦。你可以先用Chrome登录微博，然后F12查看保存在浏览器中的cookie值和User-Agent信息。模拟登陆就好了。

xiadd

2.6k41824

发布于
2015-08-15

你的爬虫又不是在浏览器里跑的，当然要登陆。是使用已登陆用户的cookie，不过微博没试过，知乎和百度都是能登陆扒取的，ps:我用的nodejs。

北冥有鱼

76431723

发布于
2015-08-15

做下模拟登陆

cnphpbb

发布于
2015-08-15

模拟登录，程序实现很容易。

lpe234

4.1k3930

发布于
2015-08-16

https://github.com/chineking/cola

rqy

1051611

发布于
2015-09-27

浏览器是浏览器，程序是程序。
爬虫是要模拟浏览器行为的。
张三吃了一块月饼，并不代表李四也吃了一块月饼。
建议你先去了解一下cookie，欲速则不达，从你的问题里就知道，功课没有做足。

推荐一篇相关文章:模拟登陆微博

用户bPcDTY

8k214247

发布于
2015-09-27

你就带上cookie呗。给你代码里的http客户端类设置Cookie协议头，又不费事。

韦轩

8902411

发布于
2015-09-28

爬虫的请求和浏览器的请求不是同一个请求，当然要重新登陆了。

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

爬取新浪微博需要登陆问题

你尚未登录，登录后可以

nextjs 15.1.7 版本，路由中设置 cookies 为什么无效？

如何从根目录拉取docs.spring.io的所有文档？