三种技术的融合

2015-07-07
阅读 2 分钟
17.5k
Hive推出不久就被发现,虽然用的SQL但是性能离数据库还差很远。很快就有人提出是不是要给Hive加上数据库一样的索引。这明显就是分布式计算引擎向分析数据库的方向靠拢。

计算与Plumbing Work

2015-06-22
阅读 3 分钟
4.6k
大数据或者计算自身并没有任何价值。数据通过影响最终决策产生价值。最初期所谓大数据或者BI的解决方案通过提供各种漂亮的报表给经营人员,让老板做出更好的决策。

时间序列数据库的选择条件

2015-04-20
阅读 1 分钟
11.1k
d1 ~ dn 是维度,比如 ip, idc, country 之类的值 v1 ~ vn 是值列,比如 cpu_usage, free_memeory_bytes 之类的值

ElasticSearch 使用不同表结构存储时间序列数据的查询效率分析

2015-04-20
阅读 17 分钟
35.3k
同样我们以最简单的表结构开始。在elasticsearch中,先要创建index,然后index下有mapping。所谓的mapping就是表结构的概念。建表的配置如下:

MongoDB 使用不同表结构存储时间序列数据的查询效率分析

2015-04-18
阅读 14 分钟
20.2k
d1 ~ dn 是维度,比如 ip, idc, country 之类的值 v1 ~ vn 是值列,比如 cpu_usage, free_memeory_bytes 之类的值

实时计算的技术难点

2015-04-17
阅读 1 分钟
8.5k
曾经天真的认为只要把 Storm 安装好之后,简单学习一下 Storm 的编程概念就可以把实时统计的工作完成了。毕竟实时统计无非就是加减乘除,并不牵涉到什么高深的机器学习算法。然后在实践中发现 Storm 根本没有提供实时统计所必需的很多基础设施和编程抽象,更不要说进行更复杂的通用实时计算了(比如关联两个事件流进行登...

数据如何产生价值

2015-04-17
阅读 1 分钟
2.1k