背景

最近逛知乎的时候看到了这个问题,“Go语言如何写数据库?”。说来我业余时间在这个领域有一些时间精力的投入了,所以想回答一下。我投入的方向是存储引擎方面,所以这篇文章主要是总结一下我看过的一些比较好的Go存储引擎的资料。罗列一些论文,开源项目。读者可以自行去了解。
图片

什么是存储引擎?

简单来说存储引擎就是存放和读取用户数据的地方,对于持久化的存储引擎而言,数据的归宿是非易失性的存储介质(通俗意义上来说就是磁盘)所以该以什么形式组织和存储数据,这就是存储引擎设计的艺术所在。这一块涉及到和操作系统打交道(主要是IO操作),还有如何更快的处理数据,这里涉及到并发事物如何处理,另外考虑空间局部性和时间局部性原理,这里涉及到对数据缓存的设计。整体来说scope还是比较大的,钻研空间比较广。下面推荐的是磁盘IO相关的文章和数据存储相关的视频资料。而这篇文章主要罗列的是Hash,B+Tree,LSM-Tree三种存储引擎的资料。

  1. 磁盘IO那些事
  2. 数据存储与检索(详解b+树存储引擎(innodb、boltdb、buntdb等)、lsm树存储引擎(bitcask、moss、pebble、leveldb等)

1. Hash

Hash存储引擎相对实现比较简单,这里就放在第一个讲了。Bitcask是hash存储引擎的典型实现,而Bitcask在go中有两个实现,nutsdb和rosedb,而nutsdb是我去年开始参与维护的,tiny-bicask是我写的一个简单版bitcask实现,目的是方便nutsdb社区小伙伴快速上手项目。下面是我推荐的bitcask相关资料和项目:

  1. Bitcask paper
  2. nutsdb
  3. rosedb
  4. tiny-bitcask
  5. nutsdb设计与实现 Go夜读分享
  6. rosedb 设计与实现Go夜读分享

2. B+Tree

B+ Tree是大家耳熟能详的一种存储引擎架构,大名鼎鼎的MySQL innodb存储引擎就是基于B+ Tree实现的。在Go中Boltdb是B+Tree的典型实现,其中著名的分布式存储etcd,底层用的是boltdb存储元数据。下面是B+Tree存储引擎的一些相关资料:

  1. Boltdb
  2. 自底向上分析 BoltDB 源码
  3. Google B-Tree实现

3. LSM-Tree

LSM-Tree的典型代表有leveldb和rocksdb,目前主流的NoSQL数据库底层采用的存储引擎一般都是基于LSM-Tree实现的。而在go中有goleveldb和badgerdb两个实现,而badger是基于论文WiscKey实现的Key Value分离的LSM架构存储。

  1. LSM paper
  2. Wisckey paper
  3. goleveldb
  4. badgerdb
  5. leveldb hand-book

总结

其实要怎么写数据库,我觉得这个问题还是太宽了,但是如果你对这方面确实感兴趣,可以先从学习相关理论,并且选一些开源项目去研究源码,必要时候可以参与到开源项目的开发之中。没有比实际动手写更好的学习方式了。另外在后面的学习过程中还会有更多优秀的学习资料,所以打算把这些资料整理到github项目里面,后面方便维护,https://github.com/elliotchen...,大家对这方面感兴趣的话可以star和提PR,感谢。


表哥的技术之旅
6 声望0 粉丝

喜欢钻研Golang源码和存储相关的开源项目。