HashTable 在蚂蚁转化归因中的极致运用

概述

蚂蚁的转化归因在初期运行两个多小时的情况下，进行了一系列优化，其中建立hash cluster表及强制hash关联及Shuffle的手动干预进行remove操作此部分优化占了较大比重。本文则主要讲述hash cluster表的一些运用。
Hash cluster表具有两个作用：
· 存储预排序的重排压缩。Hash cluster表采用分桶排序操作，若相同的值重复度高，则可以达到更好的压缩效果。
· 下游任务的Shuffle Remove。Hash cluster表由于采用对指定字段分桶操作，下游若一些关联、聚合操作与分桶键策略相同，则会进行Shuffle Remove操作。MaxCompute操作中，Shuffle是昂贵的，因此有必要在优化阶段尽可能移除不必要的Shuffle。什么情况下可以移除Shuffle？简单来说就是数据本身已经具有某些数据分布特性，刚好这个数据分布特性满足了上游算子对这份数据的分布要求，就不需要再做Shuffle，这个也是Hash cluster表的重要应用场景。

完整内容请点击下方链接查看：

https://developer.aliyun.com/article/1209042%20?utm_content=g...

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

HashTable 在蚂蚁转化归因中的极致运用

概述

阿里云开发者

引用和评论

福利来了！计算巢支持在已经购买的 ECS 上搭建幻兽帕鲁服务器，支持图形化管理配置

【Hadoop】HDFS架构解析

🔥吐血整理 Bolt.diy 部署与应用攻略

【Hadoop】HBase系统解析及适用场景

Redis-扩容机制

支付宝H5下载被拦截的原因排查与解决指南

基于 pyflink 的算法工作流设计和改造