RocketMQ 流数据库解析:如何实现一体化流处理?

4 月 19 日
阅读 5 分钟
从初代开源消息队列崛起,到 PC 互联网、移动互联网爆发式发展,再到如今 IoT、云计算、云原生引领了新的技术趋势,消息中间件的发展已经走过了 30 多个年头。

PolarDB-X最佳实践系列(五):使用通义千问和存储过程快速生成测试数据

3 月 28 日
阅读 3 分钟
PolarDB-X目前是少有的支持存储过程的分布式数据库,结合大模型,我们可以非常简单的来制造测试数据: 存储过程的原理和使用方法 通义官网

从4小时到15分钟,一次分布式数据库的丝滑体验

3 月 27 日
阅读 3 分钟
识货APP致力于为广大用户提供专业的网购决策指导,为喜欢追求性价比的网购朋友带来及时劲爆的运动、潮流、生活、时尚等网购优惠资讯,产品覆盖国内外主流购物商城。它提供了全球范围内的时尚品牌、潮流单品的信息,帮助用户发现和购买最新、最热、最具性价比的时尚商品。近年来,各大电商平台上的商品信息持续增加,海量...

PolarDB-X 的 XPlan 索引选择

3 月 27 日
阅读 6 分钟
对于数据库来说,正确的选择索引是基本的要求,选错索引轻则导致查询缓慢,重则导致数据库整体不可用。PolarDB-X存在多种不同的索引,局部索引、全局索引、列存索引、归档表索引。

选300平米别墅还是90平米小平层?一文带你读懂PolarDB分布式版集分一体化

3 月 26 日
阅读 6 分钟
1月17日,在阿里云PolarDB开发者大会上,阿里云PolarDB分布式产品部负责人黄贵发表了《分布式的PolarDB:分布式的能力,一体化的体验》主题演讲。

PolarDB-X 最佳实践:如何设计一张订单表

3 月 26 日
阅读 5 分钟
本文主要内容是如何使用全局索引与CO_HASH分区算法(CO_HASH),实现高效的多维度查询。1.淘宝订单号中的秘密有一个很有趣的事情。打开你的淘宝客户端或者PC端的淘宝,点开订单列表,打开几个订单,查看他们的订单号,你会发现什么?比如这是我最近的3个订单,和10年前的3个订单。其订单号分别是:124951106536441481012...

十年后数据库还是不敢拥抱 NUMA - 续篇

1 月 31 日
阅读 6 分钟
背景十年后数据库还是不敢拥抱NUMA, 这篇经典的纠正大家对NUMA 认知的文章一晃发布快3年了,这篇文章的核心结论是:之所以有不同的NUMA Node 是不同的CPU Core 到不同的内存距离远近不一样所决定的,这是个物理距离程序跑在不同的核上要去读写内存可以让性能差异巨大,所以我们要尽量让一个程序稳定跑在一个Node 内默认...

PolarDB-X 最佳实践系列(四):如何设计一张订单表

1 月 31 日
阅读 5 分钟
本文主要内容是如何使用全局索引与CO_HASH分区算法(CO_HASH),实现高效的多维度查询。淘宝订单号中的秘密有一个很有趣的事情。打开你的淘宝客户端或者PC端的淘宝,点开订单列表,打开几个订单,查看他们的订单号,你会发现什么?比如这是我最近的3个订单,和10年前的3个订单。其订单号分别是:12495110653644148101238...

奇思妙想的SQL|去重Cube计算优化新思路

1 月 2 日
阅读 7 分钟
SQL作为目前最通用的数据库查询语言,其功能和特性复杂程度远超大家常用的“SELECT * FROM tbl”这样简单,一段好的SQL和差的SQL,其性能可能有几十上千倍的而写出一个能够兼顾性能和易用性的SQL,超越的不仅仅是了解多少新特性的新写法,而是要深入理解数据的处理过程,然后设计好的数据的处理过程。

PolarDB-X Operator|基于两次心跳事务的指定时间点恢复方案介绍

2023-12-26
阅读 5 分钟
数据库恢复方式有备份集恢复和任意时间点恢复(PITR, point-in-time recovery)。备份集恢复顾名思义是直接使用保存的数据备份集进行恢复,只能恢复到固定某一时刻的数据库状态;任意时间点恢复,利用数据库的数据备份和日志备份,先利用数据备份将数据恢复到某一个时刻的数据库状态,数据备份集中会有一个日志位点,下...

PolarDB-X HTAP新特性 - 列存索引

2023-12-26
阅读 7 分钟
随着数据爆炸式的增长,传统的OLTP和OLAP解决方案基于简单的读写分离或ETL模型,将在线库的数据以T+1的方式抽取到数据仓库中进行计算,这种方案存在存储成本高、实时性差、链路和维护成本高等缺陷。 为应对数据爆炸式增长的挑战,PolarDB分布式版本基于对象存储设计了一套列存索引(Clustered Columnar Index,CCI)功能...

PolarDB-X 开源 | 基于Paxos的MySQL三副本

2023-12-25
阅读 17 分钟
PolarDB-X 作为PolarDB分布式版,是阿里巴巴自主设计研发的高性能云原生分布式数据库产品,采用 Shared-nothing 与存储分离计算架构,支持集中式和分布式一体化形态,具备金融级数据高可用、分布式水平扩展、混合负载、低成本存储和极致弹性等能力,坚定以兼容MySQL开源生态构建分布式能力,为用户提供高吞吐、大存储、...

PolarDB-X最佳实践系列(三):如何实现高效的分页查询

2023-12-25
阅读 5 分钟
1、一张表有十亿的数据2、遍历这张表的所有数据,每次返回1000条3、遍历要按照数据写入的时间顺序4、遍历的性能需要是恒定的,不能有衰减,也即翻前面的页很快,翻到后面的页也很快5、数据不能有遗漏

构建高效数据流转的 ETL 系统:数据库 + Serverless 函数计算的最佳实践

2023-12-07
阅读 4 分钟
随着企业规模和数据量的增长,数据的价值越来越受到重视。数据的变化和更新变得更加频繁和复杂,因此及时捕获和处理这些变化变得至关重要。为了满足这一需求,数据库 CDC(Change Data Capture)技术应运而生。然而,从 ETL 架构的角度来看,CDC 仅满足了数据的提取(Extract)能力。

存储成本最高降至原来的5%,PolarDB分布式冷数据归档的业务实践

2023-11-28
阅读 6 分钟
国内某家兼具投资理财、文化旅游、票务为一体的大型综合型集团公司,2015年成立至今,由于业务高速发展,业务数据增长非常快,数据库系统屡次不堪重负。该公司数据库运维总监介绍,他们目前业务压力比较大的是票务和订单系统,他们的平台每天新增几千万的订单数据,订单的数据来自于各个终端,近几年每个月以300G的数据...

分布式数据库,基于 Paxos 多副本的两地三中心架构

2023-11-27
阅读 10 分钟
2023年10月份的杭州云栖大会,围绕PolarDB-X分布式数据库,面向大型金融机构核心系统数据库改造实践做了一次技术分享《2023云栖大会-聚合话题:数智金融 数字金融核心技术硬核实践》,介绍了PolarDB-X分布式数据库在大型银行、股份制银行、证券系统、保险业务等场景落地的总结。

数据库导入导出工具 BatchTool 介绍

2023-11-27
阅读 7 分钟
性能对比性能实验中,使用到的软件、版本以及系统资源如下表所示:测试表测试表为 TPC-H 规格的lineitem表,共5998万行,导出成单个csv文件大小为7.4G。 {代码...} 数据导出测试结果说明:mysqldump 支持导出成csv文件,但是依赖了服务端 MySQL 的select ... into outfile能力,而本文使用的云数据库不开放该功能,因此...

重磅更新:PolarDB-X V2.3 集中式和分布式一体化开源发布

2023-11-06
阅读 14 分钟
计算节点(CN, Compute Node) 计算节点是系统的入口,采用无状态设计,包括 SQL 解析器、优化器、执行器等模块。负责数据分布式路由、计算及动态调度,负责分布式事务 2PC 协调、全局二级索引维护等,同时提供 SQL 限流、三权分立等企业级特性。

AIGC 时代的算力基石,未来的数据平台将如何演进?

2023-11-06
阅读 5 分钟
我过去的经历和人工智能其实有过好几段交集,最早是2003年,也就是整整20年前。当时我在清华大学人工智能实验室读研究生,接触到了非常早期的人工神经网络。有个作业是用一个非常小的神经网络来拟合一个简单的函数,用于为我们机器人的控制添加灵活性。当时所做出来的神经网络只有三层几十个神经元,也就是几十个参数。...

LangChain+通义千问+AnalyticDB 向量引擎保姆级教程

2023-11-02
阅读 21 分钟
本文以构建AIGC落地应用ChatBot和构建AI Agent为例,从代码级别详细分享AI框架LangChain、阿里云通义大模型和AnalyticDB提供引擎的开发经验和最佳实践,给大家快速搭建AIGC应用提供参考。

PolarDB-X 分布式数据库中的外键

2023-10-24
阅读 13 分钟
外键是关系型数据库中非常便利的一种功能,它通过一个或多个列为两张表建立连接,从而允许跨表交叉引用相关数据。外键通过约束来保持数据的一致性,通过级联来同步数据在多表间的更新和删除。在关系数据库系统中,大多数表都遵循外键的概念。因此使用外键可以在一定程度上减轻业务代码中对数据一致性判断的工作量。 虽然...

PolarDB-X 企业级特性之行级访问权限控制

2023-10-23
阅读 9 分钟
数据库软件诞生至今,经过了几十年的发展和演进,已经成为IT系统中不可或缺的关键技术。由于数据库存储了大量的敏感数据,因此需要对数据库进行访问控制和权限管理,以保护数据的安全和隐私。MYSQL数据库提供了权限管理功能,通过使用GRANT语句授权用户或用户组对特定数据库对象的操作权限,如全局级别、数据库级别、表...

PolarDB-X 混沌测试实践:如何衡量数据库索引选择能力

2023-10-23
阅读 9 分钟
随着PolarDB分布式版的不断演进,功能不断完善,新的特性不断增多,整体架构扩大的同时带来了测试链路长,出现问题前难发现,出现问题后难排查等等问题。原有的测试框架已经难以支撑实际场景的复杂模拟测试。因此,我们实现了一个基于业务场景面向优化器索引选择的混沌查询实验室,本文之后简称为CEST(complex environm...

PolarDB-X 存储引擎核心技术 | Paxos 多副本

2023-09-19
阅读 8 分钟
PolarDB-X作为PolarDB分布式版,是阿里巴巴自主设计研发的高性能云原生分布式数据库产品,为用户提供高吞吐、大存储、低延时、易扩展和超高可用的云时代数据库服务。PolarDB-X在架构上可以简单分为CN节点和DN节点。计算节点CN负责SQL的解析和执行,存储节点DN负责数据的分布式事务和高可用存储。本文主要对存储引擎核心...

PolarDB-X 存储引擎核心技术 | Lizard 分布式事务系统

2023-09-18
阅读 16 分钟
关系型数据库作为支撑企业级数据的在线存储方案,发挥了无可替代的作用。随着海量数据的增长,以及面对创新业务爆发性增长的场景,如何能够快速,业务无损的进行在线数据库扩容,对数据库的架构提出了巨大的挑战,除此以外,企业的精细化经营,也要求数据库能够一站式提供事务处理能力和数据分析能力,为了应对这些挑战...

典型场景 | PolarDB-X 如何支撑 SaaS 多租户

2023-09-14
阅读 9 分钟
很多平台类应用或系统(如电商CRM平台、仓库订单平台等等),它们的服务模型是围绕用户维度(这里的用户维度可以是一个卖家或品牌,可以是一个仓库,等等)展开的。因此,这类型的平台业务,为了支持业务系统的水平扩展性,业务的数据库通常是按用户维度进行水平切分。 可是,当平台类应用的一些用户慢慢成长为大用户(...

技术同学必会的 MySQL 设计规约,都是惨痛的教训

2023-09-06
阅读 9 分钟
在我们对数据库技术方案设计的时候,我们是否有自己的设计理念或者原则,还是更多的依据自己的直觉去设计,是否曾经懊悔线上发生过的一次低级故障,可能稍微注意点就可以避免,是否想过怎么才能很好的避免,下面规范的价值正是我们工作的检查清单,需要我们不断从错误中积累有效经验来指导未来的工作。以下规范在大型互...

聊聊数据库中的烂索引

2023-08-21
阅读 4 分钟
索引是数据库中用于加速查询的常用组件,它通过对数据冗余和重组织来加速SQL查询。通常来说,恰当的索引可以提升系统的查询性能。 关于索引存在一些误解,如:索引总是能提升查询性能,因此索引越多越好,比如下图中的例子

基于 PolarDB PostgreSQL 版和 LLM 构建企业专属 Chatbot

2023-08-21
阅读 8 分钟
随着ChatGPT的问世,人们开始认识到大语言模型(LLM,Large language model)和生成式人工智能在多个领域的潜力,如文稿撰写、图像生成、代码优化和信息搜索等。LLM已成为个人和企业的得力助手,并朝着超级应用的方向发展,引领着新的生态系统。本文介绍如何基于PolarDB PostgreSQL版向量数据库和LLM构建企业专属Chatbot。

聊聊数据库中的 savepoint

2023-08-14
阅读 3 分钟
故事要从全局二级索引开始讲起。 当我们构建了一个全局二级索引之后,一条逻辑上的数据插入,就会变成两条物理上的数据插入:一条插入到主表,另一条插入到索引表。为了保证主表和索引表数据的一致性,我们往往需要开启分布式事务,再并行地插入两条数据。如果其中一条数据插入失败了,比如索引上出现了唯一键冲突,但主...