头图

本次直播将继续我们的PostgreSQL技术内幕系列,由Oracle跟朋友们讨论交流Greenplum-Interconnect模块的话题。

Greenplum(以下简称 GPDB)是一款基于PostgreSQL的典型 Shared-Nothing 分布式数据库系统。相比PostgreSQL只能在单节点上执行查询计划,Greenplum 能够将查询并行化,以充分发挥集群的优势。为了最大限度的实现并行化处理,当节点间需要移动数据时,查询计划将被分割,而不同Segment间的数据移动就由Interconnect模块来执行。

具体而言,GPDB通过特有的执行算子motion来进行广播(broadcast)和重分布(redistribute)操作,从而实现查询计划的分割和并行计算。
执行层面,GPDB架构中有一些重要的概念,包括查询调度器和查询执行器等。

-QD(Query Dispatcher、查询调度器):是指Master 节点上负责处理用户查询请求的进程(PostgreSQL 中称之为 Backend 进程)。

-QE(Query Executor、查询执行器):是指Segment 上负责执行 QD 分发来的查询任务的进程。

QD 和 QE 之间有两种类型的网络连接: 
-Libpq:QD 通过 libpq 与各个QE间传输控制信息,包括发送查询计划、收集错误信息、处理取消操作等。libpq 是 PostgreSQL 的标准协议,GPDB对该协议进行了增强,譬如新增了 ‘M’ 消息类型 (QD 使用该消息发送查询计划给 QE)。libpq 是基于 TCP 的。

-Interconnect:QD 和 QE、QE 和 QE 之间的表元组数据传输通过 Interconnect 实现。Greenplum 有两种 Interconnect 实现方式,分别基于 TCP和UDP,其中缺省方式为 UDP Interconnect 连接方式。

Interconnect是Greenplum 实现Segment间通信的方法,为 QEs 提供高速并行的数据传输服务,不需要磁盘IO操作,是高性能查询执行的重要技术之一。

本周四直播间,我们将邀请HashData内核工程师Oracle为大家解读Greenplum-Interconnect模块,欢迎感兴趣的朋友们与我们相约直播间,一起学习成长!

主题:PostgreSQL 技术内幕(五)Greenplum-Interconnect

时间:1月5号(本周四)
图片
公司简介:HashData是中国领先具备自主可控研发能力的数据仓库软件厂商,核心团队主要由来自Pivotal、Teradata、IBM、Yahoo!、Oracle和华为等公司资深的云计算、分布式数据库和大数据专家组成。凭借深厚的技术积累以及极具前瞻性的产品理念,HashData数据仓库已广泛应用于金融、电信运营商、交通物流和互联网等多个行业头部客户。


酷克数据HashData
83 声望33 粉丝

酷克数据是中国领先的云原生数据仓库软件公司,致力以领先技术降低大数据分析的门槛和成本,我们发起了CloudberryDB开源项目,企业级数据仓库 HashData Lightning、云数仓HashData Enterprise、AI工具箱HashML,...