请教:
现在有每天的日表数据(一天生成一张), 每张表数据大概在500w左右。
需要从每天的日表数据中统计:根据appid统计ip数,同时ip需要去重。
大概的sql是:
select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;
然后将统计的appid 和 ip数,放入到另一张统计表中。
1、直接执行sql的话,肯定超时了(系统仅配置了400ms读取时间)。
2、如果将数据都取出到内存中再做操作,内存又不足了,给的内存只有50M。。。(不为难程序员的需求不是好公司)
请问,还有优化的解决方案吗?
谢谢
先说下表上可能的优化:
做一个组合索引(appid, ip)
ip存整数,不要存字符串
如果依然超时,那么尝试把数据读到内存,但你的内存只有50M,那么可以尝试用HyperLogLog,消耗的内存是极小的,但统计出来的数据会略有偏差,2%左右
最后,这种日志数据最好不要放sql,可以选择一些nosql比如hbase, mongodb都能很好的完成你这个需求