现在存在一个案例:
现有一个插入线程不断的往数据库里里面插入数据:
[
{"ts": 1562902203, "event": "product1", "direction": "buy", "price": 0.8},
{"ts": 1562902204, "event": "product1", "direction": "sell", "price": 0.8}
]
现在存在N个查询线程在做查询操作,查询内容有:
- 当前时间减去X时间内的最高价
- 当前时间减去X时间内的最低价
因为存在两个因素: 时间 和 价格 ,所以这两个都得加索引。 查询频率极高,
假设X等于 5分钟, 当前是15:00:00,查询最高价 , 查询条件是 14:55:00 - 15:00:00内的最高价,假设是14:58:00是最高价。
如果当前是 15:00:01其他不变, 查询条件是 14:55:01 - 15:00:01内的最高价,结果很可能仍然是14:58:00是最高价。
两种情况的实际结果很大的情况下是一致的。 所以出现了大量的查询纯粹是浪费资源。
但是 15:00:01是最高价的情况也出现过多次,需求也对数据精准有高要求。
现有的运行方案是: mysql 5.7 ts和price都加索引。
select * from data where `ts` >= '14:55:00' order by price desc limit 1
现在经常会出现mysql的CPU压力特别高,内存压力特别小。
现在希望得到一个方案,脱离数据库来排序获取,自己实现一个高效的方案,尽量把查询压力放到应用服务器上来。
补充一下,看到大家的答案都是在讨论怎么缓存历史最高价。
重点是 14:55:01 - 15:00:01 的最高价 与 14:55:00-15:00:00 不一定是重合的,只是可能重合。
如果重合,那么是可以存下来 last_max_price,用于减少筛选范围。
但是在查询前是不知道是否重合的,而且这个历史的last_max_price,只对重合有效,如果不重合是完全没有意义的。
这个需求的最大问题是 区间每次都是变化的。下一次查询的起点是 14:55:01,上一次是 14:55:00,起点不同
结尾是 15:00:01, 上一次是 15:00:00,也是不同的,如果上一次的最高价出现在 14:55:00,那么现有答案的缓存方案都是无效的。
最高价、最低价对于操作相同业务的用户来说是一致,那可以在 JVM 内存中缓存上次查询获得的最高价(
last_max_price
)。在使用 SQL 查询时加入last_max_price
条件,可以减少数据库操作的数据量同时减少排序的数据,提高 SQL 的执行效率。上面的 SQL 如果未返回数据,则表示当前内存的价格为最高。反之如果返回数据则更新 JVM 内存缓存的价格。如果你大部分情况下返回的都是相同的数据,上面的 SQL 可以让你在大部分场景下都只需要操作一条数据。
可以利用 redis
zset
数据结构的特性,每次查询价格时,直接通过 redis 返回,每次可精确定位最高价与最低价的值。当有复数条件排序时,可以根据自身的业务组合数字排序完成目标。
就比如:
时间间 + 价格
需要这2个不同维度进行排序数据筛选可以模仿如下的方式设计score
。format:
########.########
score 的前部分为时间
timestamp
,小数部分为价格price
。利用上面的命令即可取出某个时间段内价格的排序情况,这种方式需要程序对 score 做额外的处理。获取到 score 需要对分数做
时间、价格
的拆分。