数据分析项目如何进行版本控制

一个数据分析项目如何有效的进行版本控制。

在哪些方面需要版本控制,哪些不需要版本控制。

数据分析项目中生成的图表该如何管理。

阅读 3.3k
1 个回答

基本上我的方案是使用jupyter notebook。将一些中间结果(采用Pickle储存)和Pipeline使用的函数放在工具模块里面,然后通过Notebook的标号来显示版本,最后用git来做版本控制。比如:

-- project
  |__ data:存放原始数据、中间数据
      |__ SQL:存放原始数据所需要的SQL
      |__ pickle:存放原始数据、中间数据
  |__ src:存放文档或者Notebook需要引用的图片资源
  |__ notebooks:
      |__ 0.0 contents and introduction.ipnb:介绍整个项目,以及建立与下面notebook链接。
      |__ 1.0 方案一的EDA.ipnb
      |__ 1.1 方案一.ipnb
      |__ 1.2 方案一评估.ipnb
      |__ 2.0 方案二的EDA.ipnb
      |__ ...
      |__ end.0 跨方案比较结果.ipnb
  |__ temp_module:写一些要跨notebook引用的方法。
  |__ README
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题