流式湖仓增强,Hologres + Flink 构建企业级实时数仓

1 月 5 日
阅读 9 分钟
随着大数据从规模化走向实时化,实时数据的需求覆盖互联网、交通、传媒、金融、政府等各个领域。实时计算在企业大数据平台的比重也在不断提高,部分行业已经达到了50%。Hologres+Flink通过众多的丰富企业级能力,替换开源复杂的各类技术组件,减少多种技术栈学习、多种集群运维、多处数据一致性维护等成本,让企业专注于...

数仓架构“瘦身”,Hologres 5000CU时免费试用

2023-06-19
阅读 13 分钟
​ Hologres基于创新的HSAP架构,可以将您原先数仓架构中的OLAP系统(Greenplum、Presto、Impala、ClickHouse)、KV数据库/Serving系统(HBase、Redis)统一在一个大数据计算引擎中,并提供快速的离线实时一体化分析能力。

Delta Lake基础介绍(商业版)

2022-05-13
阅读 5 分钟
简介:介绍 Lakehouse 搜索引擎的设计思想,探讨其如何使用缓存,辅助数据结构,存储格式,动态文件剪枝,以及 vectorized execution 达到优越的处理性能。
封面图

如何使用Delta Lake构建批流一体数据仓库

2022-05-13
阅读 4 分钟
简介:Delta Lake是一个开源存储层,它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理,并统一了流式处理和批处理数据处理。Delta-Lake运行在现有数据湖之上,并且与Apache Spark API完全兼容。希望本篇能让大家更深入了解Delta Lake,最终可以实践到工作当中。
封面图

数据湖揭秘—Delta Lake

2022-05-13
阅读 4 分钟
简介:Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为湖仓架构提供可靠的,安全的,高性能的保证。
封面图

数据仓库的分层架构与演进

2022-05-11
阅读 3 分钟
简介:分层架构很容易在各种书籍和文档中去理解,但是把建模方法和分层架构放在一起就会出现很多困惑了。接下来,我会从数据研发与建模的角度,演进一下分层架构的设计原因与层次的意义。
封面图

阿里云实时数仓Hologres年度发布,解读数仓新趋势

2022-01-13
阅读 2 分钟
1月7日,阿里云实时数仓Hologres发布最新版本,在成本、可用性、在线高可用等多方面进行了能力升级,行存吞吐提升100%,列存吞吐提升30%,支持行列共存,支持更加丰富的OLAP分析场景,支持Binlog全链路事件驱动加工,原生JSON数据类型和索引,进一步降低开发和运维成本,增强Hologres高并发的在线服务能力。
封面图

Lakehouse 架构解析与云上实践

2021-12-28
阅读 6 分钟
简介:本文整理自 DataFunCon 2021大会上,阿里云数据湖构建云产品研发陈鑫伟的分享,主要介绍了 Lakehouse 的架构解析与云上实践。
封面图

【视频特辑】数据分析师必备!快速制作一张强大好用的大宽表

2021-12-16
阅读 2 分钟
简介:随着企业数字化进程的逐步推进,在日常经营过程当中会沉淀下越来越多的数据信息。 每当想做数据分析的时候,就会发现想要的指标分散在不同的数据源、数据集、数据表当中。 Quick BI的数据关联功能,可以帮助数据分析师快速将指标进行汇聚,形成一张强大好用的大宽表。 一起来看看Quick BI是如何做到的吧!
封面图

技术揭秘:从双11看实时数仓Hologres高可用设计与实践

2021-12-13
阅读 9 分钟
2021年阿里巴巴双11完美落下为帷幕,对消费者来说是一场购物盛宴,对背后的业务支撑技术人来说,更是一场年度大考。在这场大考中,一站式实时数仓Hologres以每秒11.2亿条的高速写入,和每秒1.1亿次的查询峰值(包含点查和OLAP查询),交出了满意的答卷,稳定高效地支撑了阿里巴巴双11核心应用场景。
封面图

基于Delta lake、Hudi格式的湖仓一体方案

2021-10-27
阅读 6 分钟
简介: Delta Lake 和 Hudi 是流行的开放格式的存储层,为数据湖同时提供流式和批处理的操作,这允许我们在数据湖上直接运行 BI 等应用,让数据分析师可以即时查询新的实时数据,从而对您的业务产生即时的洞察。MaxCompute 在湖仓一体架构中,通过支持 Delta Lake 和 Hudi 在数据湖中提供数据仓库性能。
封面图

数仓架构的持续演进与发展 — 云原生、湖仓一体、离线实时一体、SaaS模式

2021-06-03
阅读 5 分钟
简介:数据仓库概念从1990年提出,经过了四个主要阶段。从最初的数据库演进到数据仓库,到MPP架构,到大数据时代的数据仓库,再到今天的云原生的数据仓库。在不断的演进过程中,数据仓库面临着不同的挑战。
封面图

数据仓库分层存储技术揭秘

2021-04-21
阅读 5 分钟
一 背景据IDC发布的《数据时代2025》报告显示,全球每年产生的数据将从2018年的33ZB增长到2025年的175ZB,平均每天约产生491EB数据。随着数据量的不断增长,数据存储成本成为企业IT预算的重要组成部分。例如1PB数据存储一年,全部放在高性能存储介质和全部放在低成本存储介质两者成本差距在一个量级以上。由于关键业务需...
封面图

深度 | 数据仓库分层存储技术揭秘

2021-04-08
阅读 5 分钟
据IDC发布的《数据时代2025》报告显示,全球每年产生的数据将从2018年的33ZB增长到2025年的175ZB,平均每天约产生491EB数据。随着数据量的不断增长,数据存储成本成为企业IT预算的重要组成部分。例如1PB数据存储一年,全部放在高性能存储介质和全部放在低成本存储介质两者成本差距在一个量级以上。由于关键业务需高性能...
封面图

多点在线构建Noxmobi全球化精准营销系统

2020-03-05
阅读 8 分钟
摘要:大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。在本文中北京多点在线高级架构师杨洋分享了基于MaxCompute构建Noxmobi...

如何将数据仓库从 AWS Redshift 迁移到阿里云 AnalyticDB for PostgreSQL

2020-01-14
阅读 3 分钟
阿里云AnalyticDB for PostgreSQL(以下简称 ADB PG,即原HybridDB for PostgreSQL)为基于PostgreSQL内核的MPP架构的实时数据仓库服务,可以支持复杂ETL任务,也支持高性能在线查询,同阿里云生态紧密结合。AWS 的Redshift同样为基于PostgreSQL内核引擎的MPP数据仓库服务器,在AWS被广泛作为数据仓库使用。ADB PG和Reds...

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

2020-01-09
阅读 6 分钟
客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行常见的ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。

聚水潭是如何基于AnalyticDB for PostgreSQL 构筑海量实时数仓平台的

2019-12-12
阅读 3 分钟
上海聚水潭网络科技有限公司成立于2014年。聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务,快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经发展成为以SaaS ERP为核心,集多种商家服务为一体的SaaS协同平台,为全国33万多家电商企业提供全面的信息化解决方案。

MySQL用户如何构建实时数仓

2019-11-22
阅读 2 分钟
依托数据库生态,AnalyticDB for MySQL可以给用户提供分析场景下的标准解决方案,尤其是在大数据和性能要求较高的情况下AnalyticDB for MySQL的价值可以更好的体现。

阿里巴巴飞天大数据架构体系与Hadoop生态系统

2019-09-12
阅读 7 分钟
Hadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行高速运算和存储。

如果你也想做实时数仓…

2019-09-10
阅读 5 分钟
数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务,数据仓库的建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细内容。

读透《阿里巴巴数据中台实践》,其到底有什么高明之处?

2019-09-10
阅读 7 分钟
最近阿里巴巴分享了《阿里巴巴数据中台实践》这个PPT(自行搜索原始文章),对于数据中台的始作俑者,还是要怀着巨大的敬意去学习的,因此仔细的研读了,希望能发现一些不一样的东西。

阿里云 ESSD 采用自研新一代存储网络协议,打造“超级高速”

2019-08-27
阅读 1 分钟
8月26日,阿里云透露,正投入自研数据存储“超级高速”,核心存储产品ESSD已率先采用这一最新的自研存储网络协议,并实现大规模商用,数据传输效率提高50%。

AnalyticDB for MySQL 3.0基础版重磅发布

2019-07-11
阅读 2 分钟
随着大数据技术的迅速发展以及对数据价值的认识逐渐加深,大数据已经融合到各行各业。据可靠权威数据显示,超过39.6%的企业正在应用数据并从中获益,超过89.6%的企业已经成立或计划成立相关的大数据分析部,超过六成的企业在扩大数据的投入力度度。在这样的大数据行业背景下AnalyticDB for MySQL3.0基础版发布了。Analyt...

数据湖正在成为新的数据仓库

2019-07-09
阅读 3 分钟
编译:诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。

AnalyticDB for PG 如何作为数据源对接帆软 FineBI

2019-06-25
阅读 1 分钟
AnalyticDB for PostgreSQL 基于开源数据库 Greenplum 构建,兼容Greenplum 和 PostgreSQL 的语法,接口和生态。本章节介绍如何通过FineBI连接 分析型数据库PostgreSQL版 并进行报表开发。

数据仓库介绍与实时数仓案例

2019-06-11
阅读 5 分钟
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

OPPO数据中台之基石:基于Flink SQL构建实数据仓库

2019-05-15
阅读 9 分钟
作者 | 张俊本文整理自 2019 年 4 月 13 日在深圳举行的 Flink Meetup 会议,分享嘉宾张俊,目前担任 OPPO 大数据平台研发负责人,也是 Apache Flink contributor。本文主要内容如下:

阿里靠什么支撑 EB 级计算力?

2019-04-18
阅读 9 分钟
阿里妹导读:MaxCompute 是阿里EB级计算平台,经过十年磨砺,它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute 做了哪些工作,这些工作背后的原因是什么?大数据市场进入普惠+红海的新阶段,如何与生态发展共赢?人工智能进入井喷阶段,如何支持与借力?本文从过去一年的总结,核心技术概...

基于MaxCompute的数仓数据质量管理

2019-04-12
阅读 6 分钟
数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理。随着业务的增加,数据的应用越来越多,企业在创建的数仓过程中对数据的管理也提出了更高的要求,而数据质量也是数仓建设过程不容忽视的环节。本文针对MaxCompute数仓建设过程中如何做数据质量给出规范建议,为实际数据治理提供依据及指导。