近期在新浪微博上关注了一个相当有料的博主,个人大概有两万多条微博的数据,基本上是以纯文字居多。
有没有做过数据采集的和爬虫的小伙伴,说说这部分思路和理解?(个人也在摸索)
近期在新浪微博上关注了一个相当有料的博主,个人大概有两万多条微博的数据,基本上是以纯文字居多。
有没有做过数据采集的和爬虫的小伙伴,说说这部分思路和理解?(个人也在摸索)
Java
没做过微博的,但思路的话大概就是先获取认证Cookie,Token之类的,然后用Fiddler抓包,主要是抓请求数据的接口,然后在用Jsoup把微博的部分抓下来进行持久化。
关于源的话应该有App接口,或者是PC网页和H5网页,看哪个更加容易选哪个。
10 回答11.1k 阅读
15 回答8.4k 阅读
6 回答3k 阅读
5 回答4.8k 阅读✓ 已解决
4 回答3.1k 阅读✓ 已解决
8 回答6.2k 阅读
2 回答2.6k 阅读✓ 已解决
以前用 Java 写过一个模拟登录,爬自己私信的
因为比较懒,并没有用微博的 API
而是用 Fiddler 抓包,分析参数,模拟浏览器登录,发送请求,解析Json
缺点是比较被动,人家改个参数程序就玩不转了
如果现在再让我写一个我会选择写个 Chrome 插件
毕竟本身就是浏览器,认证那块不用操心,只管爬就行了
如果插件也懒得写,可以看下这个
不用写代码,webscraper 30秒抓取李笑来所有微博