问大家一个python爬虫和大数据的问题

我的毕业设计是做一个爬取豆瓣网站的系统,我的同学的毕业设计是大数据方面的题目。我们的毕设老师要求我用爬虫爬完数据后存储,然后做一个接口把数据传给同学(数据从我的电脑传到他的电脑上),他再用他搭建的平台处理数据再展示出来。现在我的爬虫系统做好了,他的平台也搭建好了。请问这之间传数据的接口怎么设计,要掌握哪些知识

阅读 4.4k
5 个回答

我跟同事也做过这样的配合,我这边爬完数据后直接把数据存到mysql,他那边直接查数据就好,存数据库的表结构什么的是我们事先商量好的。

接口数据格式根据对方平台的需求,就跟写app的接口差不多,给个json数据

其实可以设计好数据库结构,你这边存,他那边读就好了,mysql这种关系数据库和mongodb这类的文档数据库都可以。

你的爬虫是winform项目吧。可以再做一个web项目,你同学需要什么接口,你就写个相应web api接口传json格式数据给他。
如果你想做在爬虫winform项目里,你这边可以写一个socket服务端,你同学那边写个socket客户端来请求数据。不过不推荐把服务端写在winform里,推荐用刚才说的web api,其次推荐webservice等。

1、你的数据是什么量级,是MB,GB,PB?
2、你数据爬下来的存储方式,是存在文件里还是还是存放到数据库
3、你准备以什么方式把数据开放给对方,提供web api,还是提供ftp,还是提供数据库访问权限
你思考过这些问题,自然就知道该怎么做和该去研究哪些资料了

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题