构建海量记忆:基于 Databend 的 2C Agent 平台

12 月 10 日
阅读 9 分钟
217
文章根据沉浸式翻译技专家陈琦在 Databend Meeup 上海站分享总结和思考构建。 通过本次活动也让我初步去理解 AI 长记忆体的实现及用途。 陈琦分享属于一个比较硬核的技术分享,所以在回顾这个 PPT 时,我在陈琦分享的思路的基础上长了一些案例,来帮助读者更容易理解这个实践。
封面图

如何打造AI时代的数据基石 | Databend Meetup 上海站回顾

12 月 3 日
阅读 5 分钟
300
Data + AI 已经成为数据从业人员必须关注的技能。在基于 Databend Cloud 平台上可以大大简化数据人员在数据基础工作方面的投入,让数据人员可以花更多的精力去研究 Data + AI 的实践。在此背景下,11月29日,Databend Meetup·上海站线下活动"如何打造 AI 时代的数据基石",汇集了国内数据库领域多位一线专家:Databend ...
封面图

如何打造 AI 时代的数据基石 | Databend Meetup 上海站

11 月 27 日
阅读 2 分钟
420
数据洪流奔涌,AI 浪潮澎湃。当 Data 与 AI 深度交织,如何构建面向未来的技术栈?如何基于亚马逊云科技构数据分析业务?11月29日「如何打造AI时代的数据基石 | Databend Meetup 上海站」 应势而来!我们力邀多位来自明星开源项目与一线大厂的资深专家,为您全景解析数据平台架构、AI 创新实践与职业发展路径,开启一场...
封面图

DATA AI Databend Meetup 2025上海站邀您共话未来

11 月 21 日
阅读 2 分钟
376
数据洪流奔涌,AI 浪潮澎湃。当 Data 与 AI 深度交织,如何构建面向未来的技术栈?如何在这场变革中抢占先机?11月29日「DATA AI Databend Meetup」 应势而来!我们力邀多位来自明星开源项目与一线大厂的资深专家,为您全景解析数据平台架构、AI 创新实践与职业发展路径,开启一场思想与技术的碰撞。本次 Meetup,我们荣...
封面图

Databend SQL 存储过程使用指南

11 月 14 日
阅读 9 分钟
386
存储过程(Stored Procedure)是一组预编译的 SQL 语句集合,它们被保存在数据库中,可以像函数一样被重复调用。想象一下,如果你经常需要执行一系列复杂的数据处理操作,与其每次都手动输入这些 SQL 语句,不如将它们封装成一个存储过程,需要时直接调用即可。
封面图

Databend SQL nom Parser 性能优化

11 月 14 日
阅读 9 分钟
369
nom 是 Rust 生态中非常受欢迎的解析框架:性能优秀、组合灵活,并且能很好地利用 Rust 的类型系统。Databend 在 SQL 表达式和语句解析上大量使用 nom,开发体验不错,可读性也高。
封面图

Databend 十月月报:存储过程正式可用,数据流程全面自动化

11 月 7 日
阅读 5 分钟
405
十月,我们专注于生产自动化的落地。存储过程正式可用并移除了实验性标记,SQL 脚本引擎支持 dynamic schema introspection,能够处理复杂的 ETL 流程。同时,我们发布了 JSON 全文检索的 inverted index、智能内存溢出控制,并全面升级了运维工具——本月共发布了十一个版本。
封面图

BendSQL v0.30.3 Web UI 功能介绍

11 月 5 日
阅读 2 分钟
296
BendSQL 是 Databend 原生的命令行客户端,使用 Rust 实现。使用 BendSQL,我们可以灵活地和服务端进行交互,快速获取数据。在 BendSQL v0.30.3 版本我们引入了强大的 Web UI 功能,为用户提供了更直观、更便捷的 SQL 查询体验。本文将详细介绍如何启动和使用 BendSQL 的 Web 界面。
封面图

Databend 九月月报:自增列 AUTOINCREMENT 与行级安全

10 月 11 日
阅读 4 分钟
512
九月我们把重点放在了生产环境真正需要的功能上。这个月上线了行级访问控制、Check 约束、AUTOINCREMENT 自增列、基于事务的表名交换(SWAP),还有智能的 SQL 错误提示。这些都是企业用户一直在等的功能。
封面图

Raft 中的 IO 执行顺序:内存状态与持久化状态的陷阱

10 月 11 日
阅读 5 分钟
487
在 Raft 实现中,处理 appendEntries 请求时需要持久化两类数据:term 和 log entries。Raft 论文要求"在响应 RPC 之前必须更新持久化状态",但并未明确说明这两类数据的持久化顺序。这个看似无关紧要的细节,却可能导致已提交数据的丢失。
封面图

MySQL 数据归档的技术困境与 Databend 解决之道

9 月 19 日
阅读 6 分钟
531
在企业数字化转型的浪潮中,MySQL 作为最受欢迎的开源数据库,承载着越来越多的业务数据。从最初的几百 GB,到现在动辄几个 TB 甚至数十 TB 的数据规模,MySQL 数据库的体量增长速度常常超出企业的预期。然而,一个不容忽视的现实是:这些庞大数据库中真正的热点数据往往只占 20-30%,剩下的大部分都是历史数据、日志记...
封面图

Databend 亮相 RustChinaConf 2025,分享基于 Rust 构建商业化数仓平台的探索

9 月 18 日
阅读 6 分钟
641
十年前,当 Graydon Hoare 在 Mozilla 的支持下发布 Rust 1.0 时,很少有人能预见到这门语言会在今天成为系统编程的新标杆。十年后的今天,当我们站在 2025 年的节点回望,Rust 不仅兑现了当初"安全、并发、实用"的承诺,更在商业化道路上走出了一条独特的轨迹。

基于 Databend 的实时数据汇聚平台建设

9 月 12 日
阅读 7 分钟
589
本方案中基于 Databend 实现一个数据快速汇聚及实时去重,实现一份数据多种工作负载,把原来数据共享的推模式变成:增量订阅模式 + 抽取推送两种模式。从而让有后台开发经验或会 SQL 的人,也可以在 Databend 上实现海量数据平台的建设。
封面图

Databend 八月月报:向量检索重磅上线,性能飞跃几十倍

9 月 11 日
阅读 2 分钟
1.2k
八月我们重磅推出:基于对象存储的向量检索功能。通过 HNSW 索引算法实现了相似性搜索 23 倍性能提升,AI 应用终于可以在对象存储上高效运行了。结合我们已有的结构化数据和 JSON 处理能力,Databend 现在是完全基于对象存储构建的多模态数据仓库。
封面图

CRC32 自包含退化现象分析

9 月 9 日
阅读 14 分钟
1.5k
我的好友 fuzhe 在阅读 LevelDB 源码时,发现了一个有趣的细节:系统在存储 CRC 校验码时,并不直接使用计算出的值,而是要先做一个看似"多余"的 mask 操作。这个操作包括右旋转 15 位和加上一个神秘的常数 0xa282ead8ul。
封面图

传统大数据 Hadoop 和 云原生湖仓 Databend 对比

9 月 2 日
阅读 5 分钟
643
随着数据需求的不断增加,大数据架构的演变成为了现代数据工程师的重要课题。本文将对比传统大数据架构与新一代云原生湖仓 Databend,通过对比它们在实时与离线架构中的区别,感受 Databend 的优势。传统大数据业务架构传统的大数据平台通常由一套复杂的 Hadoop 方案组成,涉及多个组件,每个组件都有明确的任务分工。下...
封面图

存算分离架构重塑政务数据治理:福建大数据基于 Databend 构建一体化公共数据平台的实践探索

9 月 2 日
阅读 7 分钟
612
在数字政府建设的浪潮中,政务大数据平台正面临着前所未有的挑战与机遇。作为承载着全省 2000 多亿条公共数据资源的福建大数据一体化公共数据平台,其技术架构的每一次演进都牵动着整个数字福建建设的神经。福建大数据一级开发有限公司作为省级公共数据资源一体开发主体,在多年的实践中深刻体会到传统湖仓分离架构在政...
封面图

吴炳锡:AI 时代下的湖仓一体化平台建设的思考

8 月 28 日
阅读 11 分钟
708
随着企业数字化转型的深入推进,实时数据仓库与湖仓一体化架构已成为现代数据平台建设的核心议题。在业务节奏日益加快的今天,企业不仅需要处理海量的历史数据,更需要实时洞察数据变化,快速响应市场需求。如何在保证数据一致性和可靠性的前提下,实现数据湖的灵活性与数据仓库的高性能完美融合,成为每一位数据架构师...

Databend 亮相 DTCC 2025:存算分离架构引领湖仓一体化

8 月 27 日
阅读 3 分钟
646
在数字化转型加速推进的今天,实时数据仓库与湖仓一体化架构已成为企业数据平台建设的核心议题。面对海量数据的爆发式增长和日益复杂的业务需求,如何构建既能满足实时性要求,又能兼顾成本效益的现代化数据平台,成为每一位数据架构师面临的重大挑战。8月21-23日,以"智能创新 数赢未来"为主题的第十六届中国数据库技术...

SeaTunnel Databend Sink Connector CDC 功能实现详解

8 月 25 日
阅读 6 分钟
820
Databend 是一个面向分析型工作负载优化的 OLAP 数据库,采用列式存储架构。在处理 CDC(Change Data Capture,变更数据捕获)场景时,如果直接执行单条的 UPDATE 和 DELETE 操作,会严重影响性能,无法充分发挥 Databend 在批处理方面的优势。
封面图

Databend 向量索引:加速 AI 应用的数据引擎

8 月 14 日
阅读 7 分钟
619
上周六,Databend Meetup·北京站圆满举办。本次线下活动聚焦“迈向 AI 驱动的数据平台”,汇聚了国内数据库领域多位一线专家,以及来自各行各业的技术负责人、DBA、开发与运维工程师,围绕“AI Ready 数据平台”的主题,共同探讨了大模型时代数据库和数据平台的创新演进与实战应用。

迈向 AI 驱动的数据平台新时代 | Databend Meetup·北京站活动回顾

8 月 11 日
阅读 4 分钟
612
今年的 AI 热潮给数据基础设施带来了巨大变革。大模型及生成式 AI 的落地,让金融、零售、制造、医疗等行业都在加速推进数据平台的智能化升级。与之对应,数据体量和复杂性不断提升,企业对数据库系统的性能、扩展性、多模融合与 AI 支持能力提出了更高要求。
封面图

Databend 产品月报(2025年7月)

8 月 5 日
阅读 3 分钟
1.4k
这个七月,我们专注于优化一个核心目标:JSON 查询性能。最令人兴奋的是,我们对 Virtual Columns 功能进行了全面升级,效果显著——JSON 查询速度提升 3 倍,同时数据扫描量减少 26 倍!
封面图

使用 Databend Cloud 归档 OceanBase 数据数据库

7 月 29 日
阅读 6 分钟
702
数据归档的必要性:  随着生产数据库数据量持续增长,不仅备份负担加重,数据库性能也会受到显著影响。通过数据归档方案,我们可以将主库中不再频繁访问的早期数据(如历史订单或日志)迁移到归档库中。这能有效减小生产数据库的规模,从而提升其性能。
封面图

揭秘 Databend 向量索引,加速 AI 应⽤的数据引擎

7 月 25 日
阅读 7 分钟
652
Databend 作为一款云原生的 OLAP 数据库,也在积极拥抱向量数据。在「Data Infra 研究社」第 27 期活动中,我们邀请到 Databend 数据库研发工程师白珅,带来主题为**「Databend 向量索引:加速AI应用的数据引擎」的深度分享。重点介绍 Databend 最近开发的向量数据类型和向量分析技术,帮助用户深入了解 Databend 在向量...
封面图

使用 SeaTunnel 建立从 MySQL 到 Databend 的数据同步管道

7 月 16 日
阅读 4 分钟
693
SeaTunnel 是一个非常易用、超高性能的分布式数据集成平台,支持实时海量数据同步。 每天可稳定高效地同步数百亿数据,已被近百家企业应用于生产,在国内较为普及。
封面图

Databend 产品月报(2025年6月)

7 月 8 日
阅读 2 分钟
633
这个六月,我们的研发团队可谓是火力全开,为大家带来了一系列重磅更新!最值得关注的就是全新推出的 企业级审计系统 ,相信这个功能会让企业的数据安全团队眼前一亮~
封面图

利用 Graviton 和 Spot 实例打造 Databend 高性能数据平台

6 月 23 日
阅读 7 分钟
626
Databend 于 2021 年 3 月成立,团队成员主要来自 ClickHouse 社区、Google、阿里云、青云和 OB 等国内外知名数据库团队。整个团队有着深厚的行业背景,几乎每个人都在数据库领域深耕了十年以上。

超 10 倍查询加速,N-Gram Index 设计与优化全解析

6 月 17 日
阅读 4 分钟
812
在数据库和搜索系统的日常应用中,模糊查询与拼写纠错已成为提升用户体验与系统智能化不可或缺的功能。如何在保证查询准确性的同时,实现极致低延迟和低内存消耗?
封面图

玩转 Databend UDF

6 月 12 日
阅读 5 分钟
745
Databend 作为新一代云原生数据仓库,提供了六百多个内置函数,满足了大部分用户的需求。然而,随着业务的增长,需求也变的日新月异,内置的函数可能无法服务用户变化的需求。在这种场景下, Databend 提供了多种用户自定义函数(UDF)实现方式,满足不同场景下的数据处理需求。
封面图