基于Greenplum构建下一代数据分析平台

2021-07-14
阅读 5 分钟
1.9k
​7月3日,《Greenplum走遍中国》系列技术研讨会走进了大明湖畔的济南。上一篇文章,我们已经为大家整理了活动中的第一个演讲内容《基于fdw的跨Greenplum集群数据库查询实现》。今天,我们帮大家整理了第二篇演讲内容《基于Greenplum构建下一代数据分析平台》供大家学习交流。

【实战经验】Greenplum集群Master與Segment节点故障检测与恢复

2021-06-29
阅读 9 分钟
1.9k
​Greenplum集群主要包括Master节点和Segment节点,Master节点称之为主节点,Segment节点称之为数据节点。Master节点与Segment节点都是可以有备份的,其中Master节点的备节点为Standby Master(不能够自动故障转移),Segment是通过Primary Segment与Mirror Segment进行容错的。通过本文你可以了解:

万字长文,助你掌握数据库排序算法

2020-10-30
阅读 10 分钟
1.1k
在《深入浅出Greenplum内核》系列直播的第六场中,Greenplum内核研发张桓为大家详细介绍了Greenplum排序算法,相关视频已上传Greenplum中文社区B站频道。相关PPT请点击链接前往Greenplum中文社区网站(cn.greenplum.org)的下载页面获取。现在让我们通过这篇“万字长文”回顾一下活动精华吧!

手把手教你在 ARM 架构服务器上编译 Greenplum6并制作rpm安装包

2020-09-22
阅读 4 分钟
2k
Greenplum 是一款开源MPP数据分析平台,提供包括数据分析、机器学习和人工智能等特色功能。目前 Greenplum 的二进制发行版本只能运行在 X86 服务器。github上的Greenplum releases只有x86的发行版,没有提供ARM 发行版。Greenplum 是开源软件,我们可以通过编译 Greenplum 源代码自行构建 Greenplum 的 ARM 版本。

Greenplum SQL问题重现利器 Minirepo

2020-08-19
阅读 3 分钟
1.2k
大家在使用Greenplum的过程中可能会遇到跑了某种SQL而导致数据库PANIC问题,或者数据库的执行计划并没有那么合理而导致SQL性能过慢的问题。

带你了解可重定位Postgres

2020-08-11
阅读 12 分钟
1.7k
​作为Greenplum Release Engineering团队的工程师,最近有机会深入探讨Postgres的构建系统。Greenplum Server基于Postgres,并从上游继承了构建系统。gp-releng团队正在创建可重定位版本的Greenplum Server,这使我们开始研究如何进行可重定位的Postgres版本。本文提到的可重定位(Relocated)指在不重新编译安装Postgre...

3分钟快速搭建Greenplum集群

2020-07-13
阅读 2 分钟
4.9k
Greenplum作为一个分布式计算平台,集群中有不同角色的节点,比如master,segment,甚至专门的etl服务器。完整的部署一个Greenplum集群通常需要多个物理机,并花费数天甚至数周的时间。而利用docker和docker-compose,启动一个gp集群其实只需要几分钟而已。本文将介绍如何快速在docker中启动Greenplum 集群。

「实战系列」GP+Roaringbitmap,亿级会员十万级标签毫秒级查询

2020-06-24
阅读 2 分钟
2.6k
在大数据处理和应用场景中经常需要从亿级甚至十亿级会员中搜索出符合特定标签的会员。很多企业都会使用 HBase 或者 Hive + Hadoop 的方式,这样的方式查询效率非常慢,在标签非常多的情况下计算,更是让人无法忍受。这里我们介绍一种 Greenplum + Roaringbitmap 的组合使用方案,亿级甚至十亿级会员_万级标签_的条件下查...

Greenplum查询优化器如何消除外连接揭秘

2020-06-19
阅读 4 分钟
1.3k
Greenplum经过多年打磨,以性能卓越,速度快胜任不同类型的查询场景。Greenplum之所以查询跑得块,不仅是因为拥有极致优化的执行引擎和节点间网际传输,更依赖于查询处理的大脑中枢:查询优化器。Greenplum查询优化器功能丰富,结构庞杂,优化的点和用到的技术非常多。本章限于篇幅,只对查询优化器其中一小块消除外连接...

「实战系列」万字长文轻松学会 Greenplum 6.2.1 安装配置

2020-06-18
阅读 29 分钟
1.8k
获得Greenplum更多干货内容,欢迎前往Greenplum中文社区网站2019年12月12号,pivotal 发布gp6.2.1,适逢公司gp集群扩建升级,需要确定版本,所以安装gp6的版本与gp5做比对测试。本文档参考官方文档,按照官方标准步骤一步一步安装完成。文档中列举了gp6 与旧版本安装的差异点。

Greenplum 周边工具解析 - Kettle

2020-05-07
阅读 6 分钟
3.1k
Greenplum 作为全球领先的开源大数据平台,被广泛应用于包括金融、保险、证券、通信、航空、物流、零售、媒体、政府、医疗、制造、能源等行业。而将多个源端数据抽取、转换并加载到 Greenplum 数据库可能是目前很多用户较为关心的场景。

【Greenplum避坑指南4】如何收集coredump进行排错

2020-04-23
阅读 3 分钟
2.4k
当程序异常或崩溃时,操作系统会中止进程,并将进程此时的内存中的内容拷贝到磁盘的指定目录下存储,生成一个core文件(是一个内存映像,同时加上调试信息),它记录了程序挂掉时详细的状态描述,以方便编程人员调试。

【Greenplum避坑指南 III 】如何在服务器上启用core generation?

2020-03-20
阅读 3 分钟
1.6k
在程序异常或者崩溃时,cores对于debugging非常有用。我们推荐大家在master和segment服务器上启用core generation。本文将详细描述如何在linux系统上开启这项设置。

【实录】首次利用GPCC历史数据调优Greenplum 完结篇

2020-03-18
阅读 9 分钟
2.1k
本文作者Pivotal Greenplum工程技术经理王昊所在的Greenplum研发部门近期在帮助客户解决一个全局性能问题,并通过本文记录了分析过程和解决思路。我们在【实录】首次利用GPCC历史数据调优Greenplum 第一部分中帮助大家了解了GPDB集群的整体性能特征,在【实录】首次利用GPCC历史数据调优Greenplum 第二部分中分析了查询...

【实录】首次利用GPCC历史数据调优Greenplum 第二部分

2020-03-18
阅读 9 分钟
1k
数据库性能分析和优化是一个难题,作者Pivotal Greenplum工程技术经理王昊所在的Greenplum研发部门近期正好在解决一个实际用户的全局性能问题,本文记录了分析过程和解决思路。

【实录】首次利用GPCC历史数据调优Greenplum 第一部分

2020-03-17
阅读 3 分钟
1.4k
数据库性能分析和优化是一个难题,笔者所在的Greenplum研发部门近期正好在解决一个实际用户的全局性能问题,本文记录了分析过程和解决思路。本案例是第一次对实际客户的生产库以GPCC历史数据为核心剖析性能问题,因此有一定的开创性和借鉴意义,故撰文供研发同事、现场工程师、支持工程师参考,同时也适合具备一定GP基础...

收藏版!手把手教你搭建 Greenplum 6.1 集群

2020-03-16
阅读 11 分钟
7.8k
随着Greenplum大数据平台正式进入6时代,Greenplum 新版本在功能和性能上都实现大幅度地提升。Greenplum 用户麦煜遥将在本文详细介绍如何在Linux上搭建Greenplum 6.1集群。

【Greenplum避坑指南 II 】Greenplum 环境搭建和基本查错

2020-03-13
阅读 5 分钟
3k
在Greenplum避坑指南系列的上一篇《“我的SQL跑了很长时间没有结果怎么办?》中,我们介绍了解决SQL卡住和运行时间长的原因和解决方案。今天,我们将为大家讲一讲Greenplum用户在刚开始接触GP时经常会问的一个问题“Greenplum如何搭建?”以及一些避免掉坑的注意事项。