在互联网和移动分析时代,流量数据成为了企业洞察用户行为、优化产品决策和提升运营效率的关键资源。流量数据主要来源于用户在使用APP、小程序或访问网站等媒介平台时产生的各种操作行为,如点击、浏览、注册、下单等。这些行为数据通过数据埋点技术被采集,随后进入数据加工与清洗流程,以确保数据质量。
一、流量分析场景及痛点介绍
1.1流量分析场景介绍
流量的数据可以分析的维度非常多,常见的流量分析场景包括:用户行为分析、流量转化分析、广告效果分析、广告归因分析、AB实验分析、算法模型分析、实时风控分析等。
最常见的数据埋点事件模型是基于用户在产品中的各种操作行为而构建的一种数据模型,其核心在于将用户行为抽象为Event实体,并通过五个关键要素来全面描述这些事件
1.2流量分析场景中数仓模型
在流量分析数仓建模中,主要存在两种模型方法以适应不同的数据处理和查询需求:
强Schema模型(宽表模式):其特点为列和类型是比较固定的,数据经过严格的ETL(提取、转换、加载)清洗过程,以匹配数仓的宽表模型。适用于对数据一致性、完整性有严格要求,且需要频繁进行复杂查询的场景。
弱 Schema模型(弱Schema模式):数据以原始形态直接加载到数仓,处理过程相对简洁,类似于ELT(提取、加载、转换)模式。适用于数据模式频繁变化,或需要保留原始数据以便后续分析的场景。
1.3流量分析场景面临的挑战
- 开发效率低
埋点测和Flink代码和数仓开发都需要定义超长宽度列的字段,数据类型长度,约束等等
- 运维效率低
上游埋点信息会周期性的变化,字段的增加,删除,导致flink代码和数仓频繁调整代码
- 业务响应慢
业务的新增需求,涉及到数仓团队,研发团队,协同发布代码,业务响应周期长
除了业务侧,流量埋点分析在实时数仓平台技术本身也带来了诸多挑战,主要集中在数仓模型、存储扩展能力、写入能力、查询能力以及高可用能力这五个方面。
- 数仓模型
流量埋点场景的日志字段比较多,需要弱schema的处理埋点到处理和存储分析的高效灵活处理 - 存储扩展能力
流量埋点场景的日志数据量大达到上PB级别,单表单分区都是几十亿,上百亿的规模,存算分离 - 写入能力
数据量太大,需要高吞吐的实时写入能力和离线导入能力足够强。 - 查询能力
任意多维度OLAP查询性能,任意选择不定周期范围的UV计算,漏斗分析,留存分析,路径分析的性能 - 高可用能力
大数据量的场景,不同业务查询之间的隔离机制,高可用能力,保证服务的稳定性能力
二、阿里云Hologres流量分析场景核心能力
Hologres是阿里云自研的一款一站式实时数仓产品,Hologres以其高性能的实时OLAP分析、灵活的存储计算能力、高效的点查能力、先进的数据处理特性、便捷的数据湖交互式分析、高效的数据同步与兼容性,为用户提供了一站式的实时数仓解决方案。其核心技术和能力包括:
- 高性能实时OLAP分析
支持高性能的实时写入与更新,写入即可查,显著提升了数据被发现和挖掘的时效性
提供多种存储模式,包括列存与行列共存,以及丰富的索引策略,满足不同业务场景需求。
采用分布式存储,并行化逻辑。
支持主键更新,局部更新。
通过向量化引擎、轻量协程等处理,提供了高性能的查询。
- 配备多种线上服务
支持行列共存,支持高QPS的KV点查功能,使一份数据同时支持多维分析与KV点查。
适配向量检索(如Proxima),实现读写分离,保障高性能与高QPS查询与OLAP分析的隔离。
支持数据湖与数仓的交互式分析
支持阿里云数据湖与数仓(如MaxCompute、OSS)中的表进行秒级交互查询,无需数据移动,实现数据快速加速。
实现了每秒数百万行数据的高效同步,自动发现元数据,提升用户生产与开发效率。
- 丰富的生态兼容
依托PG生态,兼容主流BI工具,支持在数仓上进行查询分析、可视化等操作。
支持PostgreSQL的开发语法,提供标准SQL能力和丰富的BI工具扩展性,生态能力强。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。