Greenplum 6 OLTP (TPC-B) 性能提升60倍

2020-04-30
阅读 5 分钟
3.3k
合并Postgres内核版本至9.4,这些合并在带来一系列新功能的同时,也提升了系统的整体性能。例如,引入fastpath等锁优化,可以减少多并发情况下的锁竞争开销。

「揭秘GP」Greenplum 数据加载之外部表

2020-04-27
阅读 8 分钟
3.3k
​外部表是greenplum的一种数据表,它与普通表不同的地方是:外部表是用来访问存储在greenplum数据库之外的数据。如普通表一样,可使用SQL对外部表进行查询和插入操作。外部表主要用于Greenplum数据的导入及导出。

提高您的流数据处理能力—— Greenplum的流计算功能解析

2020-04-27
阅读 8 分钟
2.6k
​在追求数据时效性的今天,如何高效处理低延时的流数据,逐渐成为大家越来越关注的问题。 流数据处理能力已经成为衡量大数据平台计算实力的一个重要指标。Greenplum作为最先进的开源大数据平台,天生具备处理复杂问题的优势。Pivotal的研发团队在开源Greenplum的基础上,提供了新的高速流数据引擎gpKafka,从而将Greenpl...

如何在Greenplum中并行运行R程序——Greenplum R library介绍

2020-04-23
阅读 3 分钟
1.7k
本文将介绍一个全新的基于Greenplum的R语言开发函数库Greenplum R。Greenplum R提供了gpapply和gptapply两个函数,可以把R语言的程序发送至Greenplum端并行执行,从而避免数据的移动和提高R语言的执行效率。

【Greenplum避坑指南4】如何收集coredump进行排错

2020-04-23
阅读 3 分钟
2.8k
当程序异常或崩溃时,操作系统会中止进程,并将进程此时的内存中的内容拷贝到磁盘的指定目录下存储,生成一个core文件(是一个内存映像,同时加上调试信息),它记录了程序挂掉时详细的状态描述,以方便编程人员调试。

直播预告 | Greenplum内核揭秘系列之架构解读

2020-04-14
阅读 1 分钟
1.6k
Greenplum是一款强大而稳定的企业级分布式数据库。Greenplum 虽然基于 PostgreSQL,但针对大数据的场景和用户对性能的极致追求开发了大量的特性和做了极致甚至苛刻的优化。此外,Greenplum紧密拥抱Postgres社区,以敏捷的方式快速升级Postgres内核。

全新Greenplum集群传输工具—GPCOPY 2.1.0正式发布

2020-04-13
阅读 5 分钟
2.4k
​GPCOPY是新一代的支持Greenplum集群之间快速高效传输数据的工具。作为Greenplum集群数据传输的官方首选配套工具,GPCOPY除了具有高速稳定易用的特点外,还支持不同版本Greenplum集群之间的传输(当然支持同版本之间的传输)。GPCOPY支持从GP4.3.x到GP 5.x、GP5.x到GP6.x、甚至GP4.3.x到GP6.x的数据传输。它也同时支持同...

「实战」除了 X86,如何在 ARM 架构服务器上编译 Greenplum

2020-04-13
阅读 3 分钟
2k
Greenplum 是一款全球领先的开源大数据平台,为全球各行各业提供具备实时处理、弹性扩容、弹性计算、混合负载、云原生和集成数据分析能力的强大的大数据引擎,目前广泛的应用于包括金融、保险、证券、通信、航空、物流、零售、媒体、政府、医疗、制造、能源等行业。

Greenplum圈人神器roaringbitmap 发布v0.2.66

2020-04-02
阅读 1 分钟
2.2k
Roaringbitmap是一种高效的Bitmap压缩算法。Bitmap位计算非常适合大数据基数计算,常用于去重、标签筛选、时间序列等计算中。GPDB-roaringbitmap插件将Roaringbitmap功能集成到Greenplum数据库中,将Roaringbitmap作为一种数据类型提供原生的数据库函数、操作符、聚合等功能支持。

从“申请信用卡”,帮你向爸妈解释分布式数据库到底是什么

2020-03-31
阅读 3 分钟
1k
数据库是什么?对于普通人来说,日常生活中可能根本不会接触到,作为数据库从业者说起来也挠头。举个例子,我们打开水龙头就有水,按开开关就有电,很少会追溯源头问水是从哪里来,电从哪里来。今天,我们就来讲一讲你身边的Greenplum。

手把手教您借助GPCC查看表的分布和分区策略

2020-03-27
阅读 3 分钟
1.4k
Greenplum是一个大规模并行处理数据库,由一个master和多个segment组成。在之前推送的文章《Greenplum数据分布和分区策略》中,我们介绍了在Greenplum上,数据是按照什么样的分布策略分布于各个segment上。

Greenplum 带ORCA 优化器的编译安装解析

2020-03-26
阅读 4 分钟
2.2k
ORCA是开源的Postgres和Greenplum的优化器,相比于Greenplum和Postgres内置的优化器,ORCA在复杂查询以及分区表等场合有非常好的性能提升。这里介绍下如何使Greenplum启用ORCA优化器,以及如何运行Greenplum的测试用例installcheck-world。

Greenplum6 JDBC insert性能媲美MySQL

2020-03-24
阅读 5 分钟
4.1k
近些年,大数据技术在IT界里已经是必提的话题了,朋友圈里经常看到一些同事们、项目合作公司朋友们转发的大数据相关文章。最近工作中也在做一款与数据相关的产品,不幸的是,真正遇到数据量大的时候,发现常用的MySQL等数据库真是顶不住。百度一下,当前流行的Greenplum数据库映入眼帘。仔细一查,发现Greenplum还是个开...

教您正确使用最新版本的Greenplum 官方监控工具(GPCC)

2020-03-23
阅读 3 分钟
4.5k
Greenplum Command Center,或者简称GPCC,是Greenplum原生的图形化运维管理工具。在最近3年来的开发中,基于全新的界面和用户体验,陆续推出了监控、历史数据、管理的功能,在众多商业用户上得到了广泛的应用和认可。

【Greenplum避坑指南 III 】如何在服务器上启用core generation?

2020-03-20
阅读 3 分钟
1.7k
在程序异常或者崩溃时,cores对于debugging非常有用。我们推荐大家在master和segment服务器上启用core generation。本文将详细描述如何在linux系统上开启这项设置。

【实录】首次利用GPCC历史数据调优Greenplum 完结篇

2020-03-18
阅读 9 分钟
2.4k
本文作者Pivotal Greenplum工程技术经理王昊所在的Greenplum研发部门近期在帮助客户解决一个全局性能问题,并通过本文记录了分析过程和解决思路。我们在【实录】首次利用GPCC历史数据调优Greenplum 第一部分中帮助大家了解了GPDB集群的整体性能特征,在【实录】首次利用GPCC历史数据调优Greenplum 第二部分中分析了查询...

【实录】首次利用GPCC历史数据调优Greenplum 第二部分

2020-03-18
阅读 9 分钟
1.3k
数据库性能分析和优化是一个难题,作者Pivotal Greenplum工程技术经理王昊所在的Greenplum研发部门近期正好在解决一个实际用户的全局性能问题,本文记录了分析过程和解决思路。

【实录】首次利用GPCC历史数据调优Greenplum 第一部分

2020-03-17
阅读 3 分钟
1.7k
数据库性能分析和优化是一个难题,笔者所在的Greenplum研发部门近期正好在解决一个实际用户的全局性能问题,本文记录了分析过程和解决思路。本案例是第一次对实际客户的生产库以GPCC历史数据为核心剖析性能问题,因此有一定的开创性和借鉴意义,故撰文供研发同事、现场工程师、支持工程师参考,同时也适合具备一定GP基础...

全面解读PostgreSQL和Greenplum的Hash Join

2020-03-16
阅读 9 分钟
7k
2019年10月15日,Pivotal中国研发中心副总经理兼Greenplum中文社区发起人姚延栋出席了于意大利举行的PostgreSQL Conference Europe并发表了精彩的演讲《How does Hash Join work in PostgreSQL and its derivates》。本文根据演讲内容整理而成,供大家学习交流。

收藏版!手把手教你搭建 Greenplum 6.1 集群

2020-03-16
阅读 11 分钟
8.2k
随着Greenplum大数据平台正式进入6时代,Greenplum 新版本在功能和性能上都实现大幅度地提升。Greenplum 用户麦煜遥将在本文详细介绍如何在Linux上搭建Greenplum 6.1集群。

【Greenplum避坑指南 II 】Greenplum 环境搭建和基本查错

2020-03-13
阅读 5 分钟
3.3k
在Greenplum避坑指南系列的上一篇《“我的SQL跑了很长时间没有结果怎么办?》中,我们介绍了解决SQL卡住和运行时间长的原因和解决方案。今天,我们将为大家讲一讲Greenplum用户在刚开始接触GP时经常会问的一个问题“Greenplum如何搭建?”以及一些避免掉坑的注意事项。

Greenplum数据分布和分区策略

2020-03-13
阅读 3 分钟
2.6k
​Greenplum是一个大规模并行处理数据库,它由一个master和多个segment组成,其数据按照设定的分布策略分布于各个segment上。数据表的单个行会被分配到一个或多个segment上,但是有这么多的segment,它到底会被分到哪个或哪些segment上呢?分布策略会告诉我们。

TPC-B测试:Greenplum 6版本比5版本到底好了多少?

2020-03-08
阅读 7 分钟
4k
pgbench是一种在PostgreSQL上运行基准测试的简单程序。它可能在并发的数据库会话中一遍一遍地运行相同序列的 SQL 命令,并且计算平均事务率(每秒的事务数)。默认情况下,pgbench会测试一种基于 TPC-B 但是要更宽松的场景,其中在每个事务中涉及五个SELECT、UPDATE以及INSERT命令。但是,通过编写自己的事务脚本文件很...

Solr Cache最佳实践帮你轻松调优

2020-03-08
阅读 3 分钟
2.6k
Apache Solr是被广泛使用的开源搜索引擎,Greenplum DB的全文检索组件Greenplum Text就是基于其构建的:Greenplum Text简写为GPText,它将Greenplum数据库与Apache SolrCloud企业搜索和MADlib分析库进行紧密集成,从而为客户提供了大规模分析处理和业务决策支持,主要功能包括免费的文本搜索以及对文本分析的支持。

【Greenplum常见问题】 “我的SQL卡住了怎么办?”

2020-03-08
阅读 5 分钟
3.3k
​大家好,我是Pivotal Greenplum团队的一名售后工程师。平时会帮助我们的全球的商业用户解决数据库的相关的问题。在实际工作中,我们经常会被数据库管理员问及:“我的SQL跑了很长时间没有结果,我该怎么样排查?” “数据库某一条SQL卡住了怎么办?” 今天,我们将就这个内容做一些分析和总结。

Greenplum——新一代 PB 级分布式 HTAP 数据库

2020-03-07
阅读 9 分钟
5.5k
2019年Pivotal中国研发中心副总兼Greenplum中文社区发起人姚延栋受阿里云开发者社区邀请于钉钉进行技术直播演讲《基于PostgreSQL的PB级开源企业级分布式HTAP数据库》。本文由演讲内容整理而成。