时间序列数据库的选择条件

阅读 1 分钟

1

最后再感叹一下，我们为什么到今天还要去寻找好用的时间序列数据库。因为传统的实现约束太多，而且效率也不佳。

最完整的时间序列的逻辑数据模型如下：

[timestamp],[d1],[d2]...[dn],[v1],[v2]...[vn]

d1 ~ dn 是维度，比如 ip, idc, country 之类的值
v1 ~ vn 是值列，比如 cpu_usage, free_memeory_bytes 之类的值

一些时间序列数据库在实现的时候为了简化实现，提高性能约束了一个更简化的数据模型：

[timestamp],[metric],[value]

opentsdb稍微要好一些，支持了tag，但是也是不完整的模型

[timestamp],[metric],[tagk=tagv],...[value]

我们希望有一个什么样的时间序列数据库：

不要限制数据模型。支持多个维度，支持多个值。维度要可以支持中文。允许一个周期内存多个值。
能够按时间范围快速读取原数据（索引首先为时间维度优化）
对于选择性高，或者常用的维度，希望能够彼此隔离。也就是指定了维度去查的时候可以不用扫描所有的数据。（索引可选的为重要维度优化）
服务器端高效地完成维度聚合
聚合不用每次都做，支持预先计算
尽可能的利用时间维度和其他维度的重复性减少存储空间，存储自身是压缩的，占用越小越好
分布式，能够用加机器解决性能和可靠性问题

很多现成的时间序列数据库在这两个方面做得非常糟糕：

限制数据模型，必须把所有信息都编码到一个metric名上
读取原数据都相对比较快，但是一旦数据需要聚合就变得很慢，甚至无法在服务器端完成维度聚合
这些数据库逼迫其用户把所有的视图都物化成表。如果你看的视图和存的格式不一样，那么就不行，或者很慢。

参见：

阅读 11.6k更新于 2015-04-20

taowen

4.1k 声望1.4k 粉丝

Go开发者们请加入我们，滴滴出行平台技术部 taowen@didichuxing.com

« 上一篇

ElasticSearch 使用不同表结构存储时间序列数据的查询效率分析

下一篇 »

算法在ops中的应用场景

引用和评论

推荐阅读

研发效能可以度量么？

taowen赞 3阅读 2.7k

【Hadoop】HDFS架构解析

kamier赞 1阅读 1.1k

【Hadoop】HBase系统解析及适用场景

kamier赞 1阅读 797

基于 pyflink 的算法工作流设计和改造

ApacheFlink赞 1阅读 712

MCP+Hologres+LLM 搭建数据分析 Agent

阿里云大数据AI阅读 889

某全球领先网络解决方案提供商基于 Apache Doris 统一 Trino、Pinot、Iceberg、Kyuubi技术栈

SelectDB技术团队阅读 820

SelectDB 实时分析性能突出，宝舵成本锐减与性能显著提升的双赢之旅

SelectDB技术团队阅读 710

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。