HBase BulkLoad如何处理删除旧值。
目前业务是每天将海量数据通过BulkLoad导入到HBase,但遇到了一个数据无法很好清理的问题。
简单举个例子:
18号,user表中有rk=007,列簇c,列簇c中有name,age两列
19号,user表中有rk=007,列簇c,列簇c中有name一列
如何在19号删除age这一列,毕竟,原始数据中已经没有age这列了,如果19号不删除的话,查出来就是脏数据了。
1.表没法设置TTL为一天或24+N小时(业务)。
2.不想在构建KV时打上删除标识,毕竟不是真正删除。
3.构建布隆也很麻烦,要记录每一个rk。
4.没法构建日期表(每天一张user表,user_date)