流批一体的近实时数仓的思考与设计

2023-05-25
阅读 8 分钟
摘要:基于对数据时间旅行的思考,引出了对目前三种数仓形态和两种数仓架构的思考。结合数据湖在 Flink 的应用和数据湖元数据类型的思考,探索了基于数据湖的 Flink SQL 流批一体的实践,在流批一体 SQL 表达一致、结果一致性、流批任务分离、混合调度依赖等进行了设计和探索。同时,欢迎大家多分享具体实践,一起共筑新...

来电科技:基于Flink+Hologres的实时数仓演进之路

2021-06-04
阅读 5 分钟
深圳来电科技有限公司(以下简称“来电科技”)是共享充电宝行业开创企业,主要业务覆盖充电宝自助租赁、定制商场导航机开发、广告展示设备及广告传播等服务。来电科技拥有业内立体化产品线,大中小机柜以及桌面型,目前全国超过90%的城市实现业务服务落地,注册用户超2亿人,实现全场景用户需求。
封面图

美团点评基于 Flink 的实时数仓平台实践

2020-01-03
阅读 8 分钟
在 2016 年,美团点评就已经基于 Storm 实时计算引擎实现了初步的平台化。2017 年初,我们引入了 Spark Streaming 用于特定场景的支持,主要是在数据同步场景方面的尝试。在 2017 年底,美团点评实时计算平台引入了 Flink。相比于 Storm 和 Spark Streaming,Flink 在很多方面都具有优势。这个阶段我们进行了深度的平台...

Apache Flink 为什么能够成为新一代大数据计算引擎?

2019-11-12
阅读 4 分钟
众所周知,Apache Flink(以下简称 Flink)最早诞生于欧洲,2014 年由其创始团队捐赠给 Apache 基金会。如同其他诞生之初的项目,它新鲜,它开源,它适应了快速转的世界中更重视的速度与灵活性。

Flink Checkpoint 问题排查实用指南

2019-09-17
阅读 8 分钟
在 Flink 中,状态可靠性保证由 Checkpoint 支持,当作业出现 failover 的情况下,Flink 会从最近成功的 Checkpoint 恢复。在实际情况中,我们可能会遇到 Checkpoint 失败,或者 Checkpoint 慢的情况,本文会统一聊一聊 Flink 中 Checkpoint 异常的情况(包括失败和慢),以及可能的原因和排查思路。

如果你也想做实时数仓…

2019-09-10
阅读 5 分钟
数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务,数据仓库的建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细内容。

如何在 Apache Flink 中使用 Python API?

2019-09-10
阅读 10 分钟
本文根据 Apache Flink 系列直播课程整理而成,由 Apache Flink PMC,阿里巴巴高级技术专家 孙金城 分享。重点为大家介绍 Flink Python API 的现状及未来规划,主要内容包括:Apache Flink Python API 的前世今生和未来发展;Apache Flink Python API 架构及开发环境搭建;Apache Flink Python API 核心算子介绍及应用。

Flink 1.9 实战:使用 SQL 读取 Kafka 并写入 MySQL

2019-09-04
阅读 6 分钟
上周六在深圳分享了《Flink SQL 1.9.0 技术内幕和最佳实践》,会后许多小伙伴对最后演示环节的 Demo 代码非常感兴趣,迫不及待地想尝试下,所以写了这篇文章分享下这份代码。希望对于 Flink SQL 的初学者能有所帮助。完整分享可以观看 Meetup 视频回顾 :[链接]

一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理

2019-08-30
阅读 3 分钟
服务端问题排查对开发而言是家常便饭,问题并不可怕但要花大量时间去处理;另一方面故障的快速解决至关重要。 目前问题排查最大的障碍是什么呢?我们认为有以下几个原因: 大量的告警信息。 链路的复杂性。 排查过程繁复。 依赖经验。 实际工作中的排查思路并非无迹可寻,排查思路和手段可以沉淀出一套经验模型。 沉淀路...

Tablestore + Blink实战:交易数据的实时统计

2019-08-15
阅读 4 分钟
交易数据的实时统计是电商网站一个核心功能,可以帮助用户实时统计网站的整体销售情况,快速验证“新销售策略”的效果。我们今天介绍一个基于表格存储(Tablestore)实现交易数据的实时计算,给大家提供一个新使用方式。

58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密

2019-08-06
阅读 4 分钟
Flink-Storm 是 Flink 官方提供的用于 Flink 兼容 Storm 程序 beta 工具,并且在 Release 1.8 之后去掉相关代码。本文主要讲述 58 实时计算平台如何优化 Flink-Storm 以及基于 Flink-Storm 实现真实场景下大规模 Storm 任务平滑迁移 Flink。

即将发版!Apache Flink 1.9 版本有哪些新特性?

2019-08-05
阅读 9 分钟
2019阿里云峰会·上海开发者大会于7月24日盛大开幕,本次峰会与未来世界的开发者们分享开源大数据、IT基础设施云化、数据库、云原生、物联网等领域的技术干货,共同探讨前沿科技趋势。本文整理自开源大数据专场中阿里巴巴高级技术专家杨克特(鲁尼)先生的精彩演讲,主要讲解了Apache Flink过去和现在的发展情况,同时分...

Flink 1.8.0中的状态生存时间特性:如何自动清理应用程序的状态

2019-07-25
阅读 4 分钟
对于许多状态流式计算程序来说,一个常见的需求是自动清理应用程序的状态(state),以便有效地控制状态大小,或者控制程序访问状态的有效时间(例如受限于诸如GDPR等法律条规)。Apache Flink自1.6.0版本引入了状态的生存时间(time-to-live,TTL)功能,使得应用程序的状态清理和有效的状态大小管理成为可能。

用Flink取代Spark Streaming!知乎实时数仓架构演进

2019-06-28
阅读 8 分钟
“数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时数...

Apache Flink 结合 Kafka 构建端到端的 Exactly-Once 处理

2019-06-21
阅读 5 分钟
文章目录: Apache Flink 应用程序中的 Exactly-Once 语义 Flink 应用程序端到端的 Exactly-Once 语义 示例 Flink 应用程序启动预提交阶段 在 Flink 中实现两阶段提交 Operator 总结 Apache Flink 自2017年12月发布的1.4.0版本开始,为流计算引入了一个重要的里程碑特性:TwoPhaseCommitSinkFunction(相关的Jira)。它...

Flink 零基础实战教程:如何计算实时热门商品

2019-06-21
阅读 9 分钟
在上一篇入门教程中,我们已经能够快速构建一个基础的 Flink 程序了。本文会一步步地带领你实现一个更复杂的 Flink 应用程序:实时热门商品。在开始本文前我们建议你先实践一遍上篇文章,因为本文会沿用上文的my-flink-project项目框架。

Blink 有何特别之处?菜鸟供应链场景最佳实践

2019-06-17
阅读 6 分钟
作者:晨笙、缘桥菜鸟供应链业务链路长、节点多、实体多,使得技术团队在建设供应链实时数仓的过程中,面临着诸多挑战,如:如何实现实时变Key统计?如何实现实时超时统计?如何进行有效地资源优化?如何提升多实时流关联效率?如何提升实时作业的开发效率? 而 Blink 能否解决这些问题?下面一起来深入了解。

实时计算实践:基于表格存储和Blink的大数据实时计算

2019-03-07
阅读 4 分钟
表格存储(Table Store)是阿里云自研的NoSQL多模型数据库,提供PB级结构化数据存储、千万TPS以及毫秒级延迟的服务能力。在实时计算场景里,表格存储强大的写入能力和多模型的存储形态,使其不仅可以作为计算结果表,同时也完全具备作为实时计算源表的能力。通道服务是表格存储提供的全增量一体化数据消费功能,为用户提...