Greenplum 版本4到5升级“避坑”实战指南

2020-07-14
阅读 5 分钟
2.1k
Greenplum大数据分析平台 6版本 已经于2019年9月4号在 Greenplum 用户大会上正式发布了,Greenplum 5 已经进入稳定期和维护期,在不久的将来,Greenplum 4 将逐渐结束生命周期。同时,从 5版本,Greenplum 持续对 PostgreSQL 内核进行升级,新的PostgreSQL内核将带来更多的功能和性能的体验。因此从用户长期使用和维护Gr...

3分钟快速搭建Greenplum集群

2020-07-13
阅读 2 分钟
5.4k
Greenplum作为一个分布式计算平台,集群中有不同角色的节点,比如master,segment,甚至专门的etl服务器。完整的部署一个Greenplum集群通常需要多个物理机,并花费数天甚至数周的时间。而利用docker和docker-compose,启动一个gp集群其实只需要几分钟而已。本文将介绍如何快速在docker中启动Greenplum 集群。

Greenplum 的人工智能应用场景:MADlib、GPText、GPU

2020-07-03
阅读 8 分钟
2.5k
Greenplum ——全世界首个开源、多云数据平台,专为高级分析而打造。作为一个开放的数据计算平台,它集成了对数据进行挖掘和分析的高级功能,通过这些功能,用户可以直接在Greenplum数据库里使用高级分析算法,对数据进行分析和处理。

让你的数据库飞起来!Greenplum查询优化解析

2020-07-02
阅读 7 分钟
2.7k
6月19日,Greenplum原厂内核研发郭峰和大家直播分享了《深入浅出Greenplum内核》系列直播的第三期《Greenplum内核揭秘之查询优化》。没有参加活动的小伙伴也不用失望,我们已经将视频上传至Greenplum中文社区B站频道,通过点击这里即可观看。本文概括了文章的精华内容,欢迎留言交流。

【用户实测HTAP性能】Greenplum OLAP 完胜TiDB和CockroachDB,OLTP性能优异

2020-07-02
阅读 3 分钟
4.7k
传统数据库领域包含两大业务场景:OLTP和OLAP。过去,两大业务场景需要依赖不同的数据库产品,数据在不同数据库之间融通的过程中往往容易产生数据孤岛、数据的时效性、数据的一致性等问题。因此,近年来支持HTAP混合负载的数据库产品正在受到越来越多的关注。如何实现一款优秀的HTAP数据库,业界有不同的声音。

「揭秘GP」Greenplum新一代数据迁移工具gpcopy,更快更稳更易用

2020-06-24
阅读 3 分钟
2.2k
gpcopy 是新一代的 Greenplum 数据迁移工具,可以帮助客户在不同集群间,不同版本间,快速稳定地迁移数据。同上一代迁移工具 gptransfer 相比,gpcopy 具有巨大的优势:更快,更稳定,更易用,功能更丰富。另外,gpcopy 只包含在商业版本中。

「实战系列」GP+Roaringbitmap,亿级会员十万级标签毫秒级查询

2020-06-24
阅读 2 分钟
2.9k
在大数据处理和应用场景中经常需要从亿级甚至十亿级会员中搜索出符合特定标签的会员。很多企业都会使用 HBase 或者 Hive + Hadoop 的方式,这样的方式查询效率非常慢,在标签非常多的情况下计算,更是让人无法忍受。这里我们介绍一种 Greenplum + Roaringbitmap 的组合使用方案,亿级甚至十亿级会员_万级标签_的条件下查...

【用户实测HTAP性能】Greenplum OLAP 完胜TiDB和CockroachDB,OLTP性能优异

2020-06-23
阅读 3 分钟
1.9k
传统数据库领域包含两大业务场景:OLTP和OLAP。过去,两大业务场景需要依赖不同的数据库产品,数据在不同数据库之间融通的过程中往往容易产生数据孤岛、数据的时效性、数据的一致性等问题。因此,近年来支持HTAP混合负载的数据库产品正在受到越来越多的关注。如何实现一款优秀的HTAP数据库,业界有不同的声音。

Greenplum查询优化器如何消除外连接揭秘

2020-06-19
阅读 4 分钟
1.5k
Greenplum经过多年打磨,以性能卓越,速度快胜任不同类型的查询场景。Greenplum之所以查询跑得块,不仅是因为拥有极致优化的执行引擎和节点间网际传输,更依赖于查询处理的大脑中枢:查询优化器。Greenplum查询优化器功能丰富,结构庞杂,优化的点和用到的技术非常多。本章限于篇幅,只对查询优化器其中一小块消除外连接...

「MADlib」Greenplum In-database 分析介绍

2020-06-18
阅读 5 分钟
2.2k
今年QCon大会,蚂蚁金服发布了开源SQLConnectAI产品SQLFlow,旨在“降低人工智能应用的技术门槛,让技术人员调用AI像SQL一样简单”。 SQLFlow 的思想最早可以追溯到2005年,当时 Thomas Tileston 提出了 In-database 分析,将数据库与数据挖掘、机器学习有机地统一了起来。 In-database 分析通过扩充SQL的能力,降低了企业...

「实战系列」万字长文轻松学会 Greenplum 6.2.1 安装配置

2020-06-18
阅读 29 分钟
2k
获得Greenplum更多干货内容,欢迎前往Greenplum中文社区网站2019年12月12号,pivotal 发布gp6.2.1,适逢公司gp集群扩建升级,需要确定版本,所以安装gp6的版本与gp5做比对测试。本文档参考官方文档,按照官方标准步骤一步一步安装完成。文档中列举了gp6 与旧版本安装的差异点。

新鲜出炉的PGCon2020演讲回顾 ①——全局死锁检测器

2020-06-11
阅读 6 分钟
1.8k
​5月26日,一年一度的PG开发者大会PGCon2020如约而至。与往年不同的是,受疫情的影响,今年的PGCon采取了线上会议的方式,虽然没有了面对面的交流,但在组织者Dan Langille等的精心安排下,会议有了更广泛的受众,干货满满。来自Greenplum原厂的Greenplum内核工程师 Hubert Zhang(张桓)与Asim Praveen合作发表了演讲《...

助力Greenplum数据库开发之接口篇(上)——Golang,C、Python和Perl

2020-06-08
阅读 18 分钟
3k
获得Greenplum更多干货内容,欢迎前往Greenplum中文社区网站Greenplum 作为一款强大的 HTAP 数据库,针对大多数流行语言都有相应的连接库。大部分均是与 PostgreSQL 采用相同的接口,但是也有部分接口是 Greenplum 专门优化后用于自身使用的。今天,我们将给大家分享一系列语言接口的连接库及使用方式。

Greenplum 分布式数据库进军深度学习领域

2020-06-05
阅读 3 分钟
2.2k
​深度学习(Deep Learning)开始成为企业计算的一个更重要的部分,这是因为人工神经网络在自然语言处理,图像识别,欺诈检测和推荐系统等领域非常有效。在过去的五到十年中,计算机的计算能力有了极大的增强,以及海量数据的出现,这一切促使人们对使用深度学习算法解决问题产生了兴趣。

「揭秘GP」VLDB 创始人:为什么和其他相比,Greenplum 是最好的

2020-06-02
阅读 6 分钟
2.6k
导读:从最初的 Greenplum 开始,到现在已经超过15年的验证,我们一直是 Greenplum 的用户。多年来,随着我们对产品和支持的信心不断增强,它已逐渐成为VLDB的默认平台。希望本文讲述的这些原因能解除大家的困惑。

如何用gpss实现Oracle到Greenplum的增量同步

2020-06-02
阅读 4 分钟
2.8k
之前我们在《如何用gpss实现MySQL到Greenplum的增量同步》中详细介绍了MySQL到Greenplum增量同步的实现步骤。今天将给大家讲一讲Oracle到Greenplum又是如何实现的。

Greenplum 分布式数据库内核揭秘(下篇)

2020-05-30
阅读 9 分钟
3.2k
获得Greenplum更多干货内容,欢迎前往Greenplum中文社区网站​点击查看Greenplum 分布式数据库内核揭秘(上篇)1. 分布式执行器现在有了分布式数据存储机制,也生成了分布式查询计划,下一步是如何在集群里执行分布式计划,最终返回结果给用户。Greenplum 执行器相关概念先看一个 SQL 例子及其计划: {代码...} {代码...} ...

​Greenplum 分布式数据库内核揭秘(上篇)

2020-05-26
阅读 17 分钟
2.9k
Greenplum 是最成熟的开源分布式分析型数据库(2019年8月发布的 Greenplum 6 之OLTP性能大幅提升,成为了一款真正的HTAP数据库,评测数据将于近期发布),Gartner 2019 最新评测显示 Greenplum 在经典数据分析领域位列全球第三,在实时数据分析领域位列并列第四。两个领域中前十名中唯一一款开源数据库产品。这意味着如...

Hadoop 怎么了,大数据路在何方?

2020-05-26
阅读 5 分钟
2k
获得Greenplum更多干货内容,欢迎前往Greenplum中文社区网站近期Hadoop消息不断,众说纷纭。本文以Hadoop的盛衰变化为楔子聊下大数据分析的发展现状和未来趋势。15秒钟简缩版:Hadoop巅峰已过,正在成为遗留系统Hadoop 和分布式数据库在同一个赛道上,Hadoop 在这个赛道上目前并无优势大数据大数据市场是 SQL市场,是分...

Greenplum执行器位图——让查询更有效

2020-05-22
阅读 6 分钟
2k
​为了让查询更加有效,Greenplum引入了索引,但是索引在一些应用场景上也会有访问性能、过滤条件限制等问题,而位图和基于位图的访问很好的解决了这一问题。今天我们通过这篇文章提前来看一下Greenplum执行器的奥秘。

Greenplum 6新功能介绍之磁盘配额管理工具”Diskquota“

2020-05-21
阅读 7 分钟
2.1k
Diskquota extension 是 Greenplum6.0 提供的磁盘配额管理工具,它支持控制数据库 schema 和 role 的磁盘使用量。当 DBA 为 schema 或者 role 设置磁盘配额上限后,diskquota 工作进程负责监控该schema和role的磁盘使用量,并维护超出配额上限的schema和role的黑名单。当用户试图往黑名单中的schema或者role中插入数据时...

「实战系列」Greenplum 编译、安装、调试

2020-05-20
阅读 12 分钟
2.5k
​本⽂先介绍如何从源代码编译安装Greenplum、初始化Greenplum集群。然后介绍SQL在Greenplum中的典型执⾏路径,最后介绍⼀些调试技巧。

大数据云平台 Greenplum:多租户篇

2020-05-19
阅读 3 分钟
2.5k
要实现多租户,首先需要考虑的是数据层面的多租户。数据层的多租户模型对上层服务和应用的多租户实现有突出影响。本文重点介绍数据层多租户及Greenplum数据库对各种多租户模型的支持。

【青梅快讯】迅速迭代,Greenplum6为你带来持续惊喜

2020-05-18
阅读 3 分钟
2.4k
自Greenplum 6.0正式版发布以来,Greenplum保持每月一个小版本的迭代速率,持续为用户提供新功能和修复补丁,目前的最新版6.7.1。我们将定期在【青梅快讯】系列中为大家概括各个版本的新特性,帮助大家回顾和预览Greenplum带来的那些新惊喜。

Greenplum在线扩容工具“GPExpand”最详解读

2020-05-14
阅读 3 分钟
2.9k
Gpexpand是Greenplum数据库的扩容工具,可以为集群增加新节点从而可以存储更多的数据,提供更高的计算能力。Greenplum 5及之前,集群扩容需要停机增加新节点,然后对表数据做重分布。因为集群大小已经改变,所以重分布之前要先将所有哈希分布表改成随机分布,然后再按照新的集群大小重新计算哈希值并重新分布。

Greenplum 的高可用是怎么做到的?

2020-05-12
阅读 5 分钟
2.5k
​高可用HA(High Availability)是分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计减少系统不能提供服务的时间。假设系统一直能够提供服务,我们说系统的可用性是100%,很多公司的高可用目标是4个9,也就是99.99%,这就意味着,系统的年停机时间为0.876个小时。

Greenplum架构最详解读(内含视频)

2020-05-12
阅读 9 分钟
2.3k
4月17日,我们和阿里云合作,举行了《Greenplum内核揭秘》系列直播的第一场《架构解读》。在本次活动中,来自Greenplum全球总监杨瑜介绍了一些包括数据库、数据库管理系统、关系型数据库、关系模型等基本概念;详细解读了Greenplum的整体架构、存储管理、索引、查询执行、事务与日志等内容;

Greenplum 周边工具解析 - Kettle

2020-05-07
阅读 6 分钟
3.3k
Greenplum 作为全球领先的开源大数据平台,被广泛应用于包括金融、保险、证券、通信、航空、物流、零售、媒体、政府、医疗、制造、能源等行业。而将多个源端数据抽取、转换并加载到 Greenplum 数据库可能是目前很多用户较为关心的场景。

如何用gpss实现MySQL到Greenplum的增量同步

2020-05-07
阅读 5 分钟
4.9k
​数据同步一般分为两种方式:全量和增量。增量数据是一类典型的流数据,基于日志的增量同步几乎已经是所有数据库的标配,它可以减少常规ETL工作对系统带来的影响,并大大降低数据的延迟。作为Greenplum的流计算引擎,Greenplum Stream Server(gpss)能将不同源端的增量数据同步到Greenplum中。为更好的支持这一应用场景...

「实战系列」Greenplum内核优化,手把手教你提升数倍SELECT性能

2020-04-30
阅读 5 分钟
1.7k
Greenplum是世界领先的开源MPP数据库,Greenplum 6的混合负载HTAP性能有了大幅度的提升,已经可以满足大部分OLTP应用场景。这个过程非一日之功,也涉及到系统的各个层面的优化和重构,本文将手把手的示范如何分析发现瓶颈,以及如何优化内核提升性能,揭秘MPP数据库内核调优,鼓励欢迎更多人在社区里参与这类工作。