主要观点:从不同角度回顾 2025 年数据库领域,包括数据库工具、研究热点等,介绍了 20 篇引用增长最快的非自引论文及相关研究。
关键信息:
- 从数据库公司到知名教授都在写数据库领域的“年终回顾”。
- 通过引文图和 PageRank 维持数据库研究者和论文的“排名”,以确定引用增长最快的论文。
- 介绍了学习索引(Learned indexes)、(学习的)查询优化(Learned query optimization)、DBMS 引擎(DBMS engines)、ML 驱动的系统调优(ML-powered system tuning)、数据清理和匹配(Data cleaning and matching)等领域的相关论文及研究进展。
重要细节: - Tim Kraska 关于学习索引的论文引发争议,因其未附带代码。
- 数据库社区从至少三个不同方向攻击查询优化问题,包括使用机器学习方法替代基数估计、成本模型和强化学习。
- 近期 DBMS 引擎研究基于 Spark SQL、Pregel、Hekaton、Snowflake 和 Aurora 等展开。
- 数据库调优的两篇热门论文代表机器学习驱动技术,Cornell 的 DB-BERT 工作将 LLM 集成到数据库调优中。
- 数据清理和匹配领域的趋势是将 LLM 等集成到传统工具中,提高准确性。
- 作者期待数据库更智能、更快、更便宜、更易访问,同时调侃数据库缺乏礼貌。作者最新工作是关于离线查询优化。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。