taowen - SegmentFault 思否

三种技术的融合

2015-07-07

阅读 2 分钟

17.5k

Hive推出不久就被发现，虽然用的SQL但是性能离数据库还差很远。很快就有人提出是不是要给Hive加上数据库一样的索引。这明显就是分布式计算引擎向分析数据库的方向靠拢。

计算与Plumbing Work

2015-06-22

阅读 3 分钟

4.6k

大数据或者计算自身并没有任何价值。数据通过影响最终决策产生价值。最初期所谓大数据或者BI的解决方案通过提供各种漂亮的报表给经营人员，让老板做出更好的决策。

时间序列数据库的选择条件

2015-04-20

阅读 1 分钟

11.1k

d1 ~ dn 是维度，比如 ip, idc, country 之类的值 v1 ~ vn 是值列，比如 cpu_usage, free_memeory_bytes 之类的值

ElasticSearch 使用不同表结构存储时间序列数据的查询效率分析

2015-04-20

阅读 17 分钟

35.3k

同样我们以最简单的表结构开始。在elasticsearch中，先要创建index，然后index下有mapping。所谓的mapping就是表结构的概念。建表的配置如下：

MongoDB 使用不同表结构存储时间序列数据的查询效率分析

2015-04-18

阅读 14 分钟

20.2k

d1 ~ dn 是维度，比如 ip, idc, country 之类的值 v1 ~ vn 是值列，比如 cpu_usage, free_memeory_bytes 之类的值

实时计算的技术难点

2015-04-17

阅读 1 分钟

8.5k

曾经天真的认为只要把 Storm 安装好之后，简单学习一下 Storm 的编程概念就可以把实时统计的工作完成了。毕竟实时统计无非就是加减乘除，并不牵涉到什么高深的机器学习算法。然后在实践中发现 Storm 根本没有提供实时统计所必需的很多基础设施和编程抽象，更不要说进行更复杂的通用实时计算了（比如关联两个事件流进行登...

数据如何产生价值

2015-04-17

阅读 1 分钟

2.1k