今天给大家推荐一本大数据领域中必读的一本书,名字叫《大数据日知录-架构与算法》
这本书正如它封面中介绍的一样,全面梳理大数据相关技术,从数据、算法、策略、应用和系统架构等多个维度进行剖析,既包罗万象,又深入浅出。
这本书详细介绍了我们所使用的大数据组件的底层原理及实现算法。
像Flink中非常重要的分布式一致性协议,使用的是两阶段提交协议,这本书中就详细介绍了两阶段提交协议的原理,如下为书中截图:
还有像比特币中用来进行交易验证的Merkle树,书中也有详细介绍,Merkle树在亚马逊的Dynamo数据库中也有广泛应用
在Hive中常用 orc 格式 + snappy 压缩是比较常用的存储加压缩格式,书中也有详细介绍压缩算法Snappy
书中还有很多大数据组件底层算法及原理,就不一一举例了
给大家截取部分目录看下
这本书非常值得读一读,有兴趣的同学建议买一本实体书
因此处不易放链接,如果你想看电子版,可以搜索公众号:五分钟学大数据,或直接扫描下方二维码,对话框发送 大数据日知录 即可获取此书电子版
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。