data pipeline 中充斥着惊人的浪费,只是选择视而不见

2016-06-13
阅读 2 分钟
6.8k
越来越多的公司言并称大数据,而大数据管道和存储集群的规模甚至可以是业务集群的一百倍的规模。这里有多少机器是真正在做有价值的事情,而有多少cpu cycle是白白被浪费掉了呢?data pipeline 中充斥着惊人的浪费!只是我们选择视而不见。廉不知耻地把集群规模到了xxx台做为自己的功劳。殊不知机器只是成本,集群规模只...

Elasticsearch as Database

2015-08-27
阅读 1 分钟
27.6k
Go开发者们请加入我们,滴滴出行平台技术部 taowen@didichuxing.com 推销Elasticsearch 时间序列数据库的秘密(1)—— 介绍时间序列数据库的秘密(2)——索引时间序列数据库的秘密(3)——加载和分布式计算 用SQL查询Elasticsearch [链接] 【01】把 Elasticsearch 当数据库使:表结构定义【02】把 Elasticsearch 当数据库使...

流式统计的几个难点

2015-08-04
阅读 6 分钟
27.3k
流式统计听着挺容易的一个事情,说到底不就是数数嘛,每个告警系统里基本上都有一个简单的流式统计模块。但是当时基于storm做的时候,这几个问题还是困扰了我很长时间的。没有用过spark streaming/flink,不知道下面这些问题在spark streaming/flink里是不是都已经解决得很好了。

数据库的 Consistency 与 Leaky Abstraction

2015-07-30
阅读 4 分钟
7.5k
最近在学习各大互联网公司是如何处理数据一致性的。因为之前从事的不是这个方向的工作,所以并非什么经验之谈,只是一些学习笔记。所有资料来自互联网。

三种技术的融合

2015-07-07
阅读 2 分钟
17.5k
Hive推出不久就被发现,虽然用的SQL但是性能离数据库还差很远。很快就有人提出是不是要给Hive加上数据库一样的索引。这明显就是分布式计算引擎向分析数据库的方向靠拢。

Intel 加速分布式计算系统的三个神器

2015-07-04
阅读 2 分钟
12.4k
Intel 为了更好的卖他们家的cpu,花了不少力气参与分布计算社区的开发,比如spark。如果真正用好这些芯片提供的特性,确实可以极大的提升分布式计算系统的性能。

影响数据检索效率的几个因素

2015-06-07
阅读 5 分钟
10.2k
数据检索有两种主要形态。第一种是纯数据库型的。典型的结构是一个关系型数据,比如 mysql。用户通过 SQL 表达出所需要的数据,mysql 把 SQL 翻译成物理的数据检索动作返回结果。第二种形态是现在越来越流行的大数据玩家的玩法。典型的结构是有一个分区的数据存储,最初这种存储就是原始的 HDFS,后来开逐步有人在 HDFS ...