PHP或者python进行数据采集和分析,有什么比较成熟的框架?

我现在需要对一个网站的文章列表和列表里面的实际内容进行自动化数据采集,列表里面能够取得每个文章的id,而每个文章又是通过一个统一的接口(参数带上那个文章id即可获取到对应的json)里面又有一部分数据需要采集然后进行数据分析。

目前有什么比较成熟的框架或者轮子能够实现我的需求吗?(要多线程,而且可以7x24小时稳定运行,因为采集数量巨大)

另外问一下,采集到的内容如何存储(百万到千万),数据里面有一些数字数据,需要进行统计分析,用mysql可以吗?或者说还有其他更加成熟简便的轮子可以用吗?

阅读 6.1k
7 个回答

少年, 你这不就是个爬虫的需求么?

  1. 爬虫框架: scrapy

  2. 数据库选取: 你这个量级用MySQL做好索引完全可以再战五百年

也可以尝试用MongoDB

如果是数据分析。
map-reduce 做日志分析
Dpark 可以解决PV和UV的分析
Spark也是不错的哦。
生产数据报表后可以用Pandas进行分析和展示。。

如果是数据采集。工具就很多了。

我怎么觉得你是要搞搜索引擎呀。。。量比较大。建议分布式的东西。
用MYSQL不太现实。。。

你没说什么语言什么环境。多线程的话,目前一般用nodejs、python。这两个都可以使用mysql之类的存储数据。几百万上千万不成问题。

有玩过 python selenium + PhantomJs 么?

python语言的这个scrapy这个还是

你可以试试【神箭手云爬虫开发平台。】
神箭手云爬虫是一个帮助JS开发者快速开发爬虫系统的SaaS服务平台。神箭手提供上手简单,灵活开放的云爬虫开发框架,让开发者只需要在线写几行js代码就可以实现一个爬虫。并且爬虫将自动运行在云服务器上,爬取速度更快,效率更高。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题